Java爬虫:用java爬取小说

本文展示了如何使用Java编写爬虫,从网站http://www.shicimingju.com抓取《三国演义》的所有章节,并保存到本地文件。主要技术包括正则表达式、Java网络通信、IO流、Map和异常处理。
摘要由CSDN通过智能技术生成

Java也能做爬虫。

现在提到爬虫人第一个想到的就是python,其实使用Java编写爬虫也是很好的选择,

下面给大家展示一个使用Java基础语言编写的爬取小说的案例:

 

实现功能:

爬取目标网站全本小说

 

代码编写环境

JDK:1.8.0_191

Eclipse:2019-03 (4.11.0)

 

素材:

网站:http://www.shicimingju.com

小说:三国演义

 

案例实现用到的技术:

正则表达式

Java网络通信:URL

IO流

Map—HashMap

字符串操作

异常处理

 

代码思路

根据小说存放位置创建file对象

根据网页结构编写正则,创建pattern对象

编写循环,创建向所有小说章节页面发起网络请求的url对象

网络流BufferReader

创建输入流

循环读取请求得到的内容,使用正则匹配其中的内容

将读取到的内容写入本地文件,知道循环结束

注意代码中的异常处理

 

 

运行效果

 

第117章开始下载。。。。。。。。。。。。。。。。。

邓士载偷度阴平 诸葛瞻战死绵竹_《三国演义》_诗词名句网

第117章结束下载。。。。。。。。。。。。。。。。。

第118章开始下载。。。。。。。。。。。。。。。。。

哭祖庙一王死孝 入西川二士争功_《三国演义》_诗词名句网

第118章

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值