网络爬虫下载网页

最新推荐文章于 2021-09-26 16:29:12 发布

qianxiuhua1990

最新推荐文章于 2021-09-26 16:29:12 发布

阅读量589

点赞数

文章标签：网络 url 格式化

本文链接：https://blog.csdn.net/qianxiuhua1990/article/details/38920795

版权

类的基本功能：属性和行为组成
行为：下载网页，url为要下载的地址信息，比如为百度：http：//www.baidu.com
public void download(String urlAddress){
定义要下载的网页地址
URL url=new URL(urlAddress);
处理异常的方法有两种，一种是将异常的信息向上反馈，第二种是使用try/catch语法来处理异常。
当前类的处理方法采用的是第一种
接下来是打开网络连接，这里我们使用第二种处理异常的方式
try{
URLConnection con=url.openConnection();

得到百度服务器的输出(对我们来说是输入)
InputStream is=con.getInputStream();
我们要将读取的信息写入文件（这时是输出）
IO读写文件有两种方式第一是Output（这一种无法定义编码）第二种是Writer（可以指定输出编码）
指定一个输出的文件名，我们采用时间戳的方式yyyyMMddHHmssSSS（SSS为毫秒）
SimpleDateFormat时间格式化
SimpleDateFormat sdf=new SimpleDateFormat("yyyyMMddHHmmssSSS");
String date=sdf.format(new Date);
Date使用java Util那个
date为当前文件名，为了保证输出的完整性，我们一般使用全路径信息
File.separator，路径分隔符，可以自动识别操作系统
String path=“c”+File.separator+“windows”；
OutputStream os=new FileOutputStream(path+date+".html");
这里的path为保存文件的路径信息（Windows用“c：\\”这样的）
接下来就可以将内容输出了,需要循环处理
int ch=is.read();
while(ch!=-1){
os.write(ch);
ch=is.read();
}
关闭流
os.close();
is.close();

}catch(Exception e){

}
}
测试

qianxiuhua1990

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫下载网页

类的基本功能：属性和行为组成行为：下载网页，url为要下载的地址信息，比如为百度：http：//www.baidu.com public void download(String urlAddress){ 定义要下载的网页地址 URL url=new URL(urlAddress); 处理异常的方法有两种，一种是将异常的信息向上反馈，第二种是使用try/catch语法来处理异常
复制链接

扫一扫