Java也能做爬虫。
现在提到爬虫人第一个想到的就是python,其实使用Java编写爬虫也是很好的选择,
下面给大家展示一个使用Java基础语言编写的爬取小说的案例:
实现功能:
爬取目标网站全本小说
代码编写环境
JDK:1.8.0_191
Eclipse:2019-03 (4.11.0)
素材:
网站:http://www.shicimingju.com
小说:三国演义
案例实现用到的技术:
正则表达式
Java网络通信:URL
IO流
Map—HashMap
字符串操作
异常处理
代码思路
根据小说存放位置创建file对象
根据网页结构编写正则,创建pattern对象
编写循环,创建向所有小说章节页面发起网络请求的url对象
网络流BufferReader
创建输入流
循环读取请求得到的内容,使用正则匹配其中的内容
将读取到的内容写入本地文件,知道循环结束
注意代码中的异常处理
运行效果
第117章开始下载。。。。。。。。。。。。。。。。。
邓士载偷度阴平 诸葛瞻战死绵竹_《三国演义》_诗词名句网
第117章结束下载。。。。。。。。。。。。。。。。。
第118章开始下载。。。。。。。。。。。。。。。。。
哭祖庙一王死孝 入西川二士争功_《三国演义》_诗词名句网
第118章