URL类的用法

认识URL

 URL 代表一个统一资源定位符,它是指向互联网“资源”的指针。资源可以是简单的文件或目录,也可以是更为复杂的对象的引用,例如对数据库或搜索引擎的查询。   简单的可以把URL理解为包含:协议、主机名、端口、路径、查询字符串和参数等对象。每一段可以独立设置。 应用程序也可以指定一个“相对 URL”,它只包含到达相对于另一个 URL 的资源的足够信息。HTML 页面中经常使用相对 URL. 相对 URL 不需要指定 URL 的所有组成部分。如果缺少协议、主机名称或端口号,这些值将从完整指定的 URL 中继承。由于 URL 不懂 URL 转义,所以它不会识别同一 URL 的对等编码和解码形式。 注意,URI 类在某些特定情况下对其组成字段执行转义。建议使用 URI 管理 URL 的编码和解码,并使用 toURI() 和 URI.toURL() 实现这两个类之间的转换。也可以使用 URLEncoder 和 URLDecoder 类,但是只适用于 HTML 形式的编码,它与 RFC2396 中定义的编码机制不同。   (以上介绍来自Java API doc)

1、创建一个url对象

getProtocol() 获取该URL的协议名。   
getHost() 获取该URL的主机名。    
getPort() 获取该URL的端口号,如果没有设置端口,返回-1。   
getFile() 获取该URL的文件名。    
getRef() 获取该URL在文件中的相对位置。    
getQuery() 获取该URL的查询信息。   
getPath() 获取该URL的路径    
getAuthority() 获取该URL的权限信息   
getUserInfo() 获得使用者的信息    
getRef() 获得该URL的锚

	public static void test1(){
		try {
			//URL url = new URL(spec);
			URL url = new URL("http://baidu.com");
			System.out.println("获取该URL的协议名:" + url.getProtocol());
			System.out.println("获取该URL的主机名:" + url.getHost());
			System.out.println("获取该URL的端口号,如果没有设置端口,返回-1:" + url.getPort());
			System.out.println("获取该URL的文件名:" + url.getFile());
			System.out.println("获取该URL在文件中的相对位置:" + url.getRef());
			System.out.println("获取该URL的查询信息:" + url.getQuery());
			System.out.println("获取该URL的路径:" + url.getPath());
			System.out.println("获取该URL的权限信息:" + url.getAuthority());
			System.out.println("获得使用者的信息:" + url.getUserInfo());
			System.out.println("获得该URL的锚:" + url.getRef());
			
		} catch (MalformedURLException e) {
			e.printStackTrace();
		}
	
	}


2、从网上获取网页代码并保存在本地

	/**
	 * 使用URL类抓取网页上的内容并保存到本地
	 */
	public static void test1(){
		//声明一个content变量,用来装载抓取到的网页内容
		//StringBuffer对象的初始化不像String类的初始化一样,主要用于拼接字符串 是一个可变长的字符窜
		StringBuffer content = new StringBuffer();
		try {
			//创建url对象
			URL url = new URL("http://ip138.com");
			//openConnection() 对影响到远程资源连接的参数进行操作。 
			URLConnection conn = url.openConnection();
			//获取网页的代码内容
			InputStream fis = conn.getInputStream();
			//读取获得的内容(注意:要看你抓取网页的编码,不然会出现乱码)
			Scanner scanner = new Scanner(fis,"gb2312");
			//使用printWriter类编辑my.txt文件
			PrintWriter pw = new PrintWriter("my.txt");
			while(scanner.hasNextLine()){
				//System.out.println(scanner.nextLine()+"\r\n");
				//将读取到的网页内容,按行的添加在content中
				content.append(scanner.nextLine()).append("\r\n");
				//将读取的内容写入my.txt文件中
				pw.println(content);
				pw.flush();
			}
			scanner.close();
			fis.close();
			pw.close();
		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}







  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值