URL
1. URL(Uniform Resource Locator)统一资源定位符,表示Internet上某一资源的地址。在做Python的爬虫的时候第一次接触这个东西。
2. URL由两部分组成:协议名称和资源名称,中间用冒号隔开。例如
http://www.example.com/index.html
,表示协议http,主机名www.example.com,文件名index.html。
一般的格式如下:
scheme:[//[user:password@]host[:port]][/]path[?query][#fragment]
3. 在java.net包中,提供了URL类来表示URL。
package com.test;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.logging.Level;
import java.util.logging.Logger;
public class test{
public static void main(String[] args) {
try {
//创建一个URL实例
URL baidu=new URL("http://www.baidu.com");
URL url=new URL(baidu, "/index.html?username=wonderq#test");
System.out.println("协议:"+url.getProtocol());
System.out.println("主机:"+url.getHost());
//如果未指定端口号,则使用默认端口号,此时getport返回值为-1
System.out.println("端口号:"+url.getPort());
System.out.println("文件路径:"+url.getPath());
System.out.println("文件名称;"+url.getFile());
System.out.println("相对路径:"+url.getRef());
System.out.println("查询字符串:"+url.getQuery());
} catch (MalformedURLException ex) {
Logger.getLogger(test.class.getName()).log(Level.SEVERE, null, ex);
}
}
}
协议:http
主机:www.baidu.com
端口号:-1
文件路径:/index.html
文件名称;/index.html?username=wonderq
相对路径:test
查询字符串:username=wonderq
使用URL读取网页内容
- 通过URL对象的openStream()方法可以得到指定的资源输入流。
- 通过输入流可以读取、访问网络上的数据。
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.logging.Level;
import java.util.logging.Logger;
public class test{
public static void main(String[] args) {
try {
//创建URL实例
URL url=new URL("http://www.baidu.com");
//通过URL的openStream()方法获取对象所表示的资源的字节输入流
InputStream is=url.openStream();
//将字节输入流转化为字符输入流
InputStreamReader isr=new InputStreamReader(is,"utf-8");
//为字符输入流添加缓冲
BufferedReader br=new BufferedReader(isr);
//定义字符串保存读取的数据
String data= br.readLine();
while(data!=null){
System.out.println(data);
data=br.readLine();
}
br.close();
isr.close();
is.close();
} catch (MalformedURLException ex) {
Logger.getLogger(test.class.getName()).log(Level.SEVERE, null, ex);
} catch (IOException ex) {
Logger.getLogger(test.class.getName()).log(Level.SEVERE, null, ex);
}
}
}
结果如下
将上述结果保存到一个文本中,更改后缀名为.html。然后双击该文本。
如:
运行一下
大致就是这样,不过图片显示不出来,这个就涉及到一些比较复杂的网络架构知识了。