Java网络编程之URL编程

URL简介

URL是统一资源定位符(Uniform Resource Locator)的缩写,是对网络上资源(地址)的一个引用。资源可以是简单的文件或目录,也可以是对更为复杂的对象的引用,例如对数据库或搜索引擎的查询。下面是一个URL的例子:


如上图所示,URL由两个主要部分组成:协议标示符和资源名称。协议标示符和资源名称之间由冒号和两个斜线分隔,协议标示符表示用于获取资源的协议名称,比如HTTP,资源名称是资源的完整地址。资源名称的格式完全依赖与所使用的协议,但对于很多协议来说,资源名称包含下表中的一个或者多个部分:

主机名

资源所在机器的名称

文件名

文件所在机器上的路径名

端口号

连接的端口号(可选)

引用

资源内部命名锚的引用,通常标示了文件内的特定位置(可选)

对于很多协议,主机名和文件名是必需的,而端口号和引用是可选的。比如,一个HTTP的URL必须制定网络上的服务器(主机名)和服务器上的文档路径(文件名),也可以指定端口号和引用。

URL实战

创建URL

Java.net.URL类提供了五个构造函数用于创建URL对象,最简单的构造函数是根据人类可读的表示URL地址的字符串直接构造对象,比如URL sina = newURL(“http://www.sian.com.cn”),该例子使用绝对URL创建对象,绝对URL包含访问资源的所有必需信息。也可以根据相对URL创建URL对象,比如:

URL blog = new URL("http://write.blog.csdn.net/");

URL myBlog = newURL(blog, "postlist");

该构造函数使用了相对URL和路径构造URL对象,该函数的通用形式为:URL(URL context, String spec)。该构造函数通过在指定的上下文中对给定的 spec 进行解析创建 URL。 新的 URL 从给定的上下文 URL 和 spec 参数创建,这在以下文档中进行了描述:RFC2396"Uniform Resource Identifiers : Generic * Syntax":

          <scheme>://<authority><path>?<query>#<fragment>

该引用被解析为方案、授权、路径、查询和片段(引用)部分。授权组成部分(如果指定)为基于服务器的或基于注册表的。基于服务器的授权按照如下语法进行解析: [user-info@]host[:port]其中,字符 @ 和 : 代表它们自身,user-info可能包含用户名和如何获得访问服务器的授权的信息。

如果路径部分为空,方案、授权和查询部分未定义,则新的 URL 为对当前文档的引用。否则,新的 URL 中将使用 spec 中出现的片段和查询部分。如果给定的 spec 中定义了方案部分,但与上下文的方案不匹配,则只根据 spec 创建新的绝对 URL。否则,方案部分从上下文 URL 继承。如果 spec 中有授权部分,则将该 spec 视为绝对的,并用 spec 的授权和路径替换上下文授权和路径。如果 spec 中没有授权部分,则新的 URL 的授权将从上下文继承。如果 spec 的路径部分以斜线字符 "/" 开始,则将该路径视为绝对的,并用 spec 的路径替换上下文路径。 否则,如 RFC2396 中所述,该路径将被视为相对路径,并被添加到上下文路径中。此外,在这种情况下,还将通过删除由 ".." 和 "." 产生的目录更改对路径进行规范化处理。

其它的构造函数还有URL(String protocol, String host, int port,String file),该构造函数在不知道完整URL规范但知道URL各部分时很有用。

当URL中包含特殊字符,比如空格,在将这些特殊字符传递给构造函数前需要对其编码,比如URL url = new URL("http://foo.com/hello%20world"),所表示的URL为http://foo.com/hello world/。当URL地址中包含几个特殊字符或者不太确定如何编写访问的URL时,可以使用多个参数的java.net.URI类自动得处理编码,如:URI uri = newURI("http", "foo.com", "/hello world/",""),然后将URI转化为URL:URL url = uri.toURL()。

需要注意的是每个URL构造函数当传递的参数为null或者未知的协议时会抛出MalformedURLException异常,在编码时要对该异常进行处理。

URL直接读

在创建URL对象后可以调用openStream()方法打开到该URL的连接并返回一个用于从此连接读入的InputStream对象。该方法是后面将要介绍的openConnection().getInputStream()方法的缩写,如果查看源代码会发现在openStream()方法中直接调用了openConnection().getInputStream()。下面看一下从URL直接读的实际效果,也包含了一些解析URL对象的方法:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
public class URLInAction {
	public static void main(String[] args) throws IOException{
		URL sina = new URL("http://www.sina.com.cn");
		
		URL blog = new URL("http://write.blog.csdn.net/");
		URL myBlog = new URL(blog, "postlist");

		
		System.out.println("protocol = " + myBlog.getProtocol());
		System.out.println("authority = " + myBlog.getAuthority());
	    System.out.println("host = " + myBlog.getHost());
	    //获取此 URL 的端口号,如果未设置端口号,则返回 -1
	    System.out.println("port = " + myBlog.getPort());
	    System.out.println("path = " + myBlog.getPath());
	    System.out.println("query = " + myBlog.getQuery());
	    System.out.println("filename = " + myBlog.getFile());
	    System.out.println("ref = " + myBlog.getRef());
	    
	    //直接从URL读取数据,并输出到标准输出
		BufferedReader in = new BufferedReader(new InputStreamReader(sina.openStream()));
		String inputLine;
		while ((inputLine = in.readLine()) != null)
			System.out.println(inputLine);

		in.close();

	}
	
}

执行该代码的输出结果如下(仅截取了部分读取URL的输出结果):

protocol = http
authority = write.blog.csdn.net
host = write.blog.csdn.net
port = -1
path = /postlist
query = null
filename = /postlist
ref = null
<!--新浪首页二轮播背投广告开始-->
<script async charset="utf-8"src="http://d3.sina.com.cn/litong/zhitou/sinaads/release/sinaads.js"></script><insclass="sinaads" data-ad-pdps="PDPS000000051826"data-ad-type="bp"></ins><script>(sinaads =window.sinaads || []).push({});</script>
<!--新浪首页二轮播背投广告结束-->
 
<!-- CPM视窗广告 开始 -->
<spanid="videoWindowWrap"></span>
<script async charset="utf-8"src="http://d9.sina.com.cn/litong/zhitou/sinaads/release/sinaads.js"></script>
<scriptsrc="http://d2.sina.com.cn/litong/zhitou/sinaads/release/Schedule.js"charset="utf-8"></script>
<script>
if ((new Schedule('2014-3-31')).check()) {
   document.write('<ins class="sinaads"data-ad-pdps="PDPS000000004571"data-ad-type="videoWindow"></ins>');
} else {
  document.write('<ins class="sinaads"data-ad-pdps="PDPS000000052408"data-ad-type="videoWindow"></ins>');
}
(sinaads = window.sinaads || []).push({
   params : {
        sinaads_frequence : 60 * 10
    }
});
</script>

读写URLConnection

创建了URL对象后,可以调用openConnection()返回URLConnection,该类表示URL 所引用的远程对象的连接。每次调用URL 的openConnection方法都打开一个新的连接。 如果 URL 的协议(例如,HTTP 或 JAR)存在属于以下包或其子包之一的公共、专用 URLConnection 子类:java.lang、java.io、java.util、java.net,返回的连接将为该子类的类型。例如,对于 HTTP,将返回HttpURLConnection,对于 JAR,将返回 JarURLConnection。可以使用URLConnection对象在连接之前设置参数或者其它通用的请求属性,比如:setConnectTimeout(int timeout)用于设置连接时的超市时间。

URLConnection类是一个以HTTP协议为核心的类,提供了许多只对HTTP协议有用的方法,但大多数URL协议允许从该连接进行读写,下面是代码示例:

//通过URLConnection对象读取数据,其效果和直接从URL读取数据时一致
		URLConnection sinaCon = sina.openConnection();
		in = new BufferedReader(new InputStreamReader(sinaCon.getInputStream()));

		while ((inputLine = in.readLine()) != null)
			System.out.println(inputLine);
		in.close();

从一个URLConnection对象读取数据和从URL对象直接读取数据的效果一致,但使用URLConnection可能更加有用,因为可以使用该类进行一些其它有用(比如像URL写数据)的任务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

skyWalker_ONLY

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值