java爬虫之下载txt小说

最新推荐文章于 2024-07-04 16:04:39 发布

请叫我林小李

最新推荐文章于 2024-07-04 16:04:39 发布

阅读量5.4k

点赞数 3

分类专栏： java基础爬虫文章标签： java 爬虫正则

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25237663/article/details/51794186

版权

本文讲述了如何利用Java编写爬虫下载《大主宰》这本小说，主要涉及分析网页结构，通过正则表达式匹配章节名和正文，并将内容保存为TXT文件。爬虫能识别章节是否为最新，实现自动化下载。

摘要由CSDN通过智能技术生成

最近迷上了天蚕土豆写的《大主宰》这本玄幻小说，无奈找不到下载链接。于是就萌生了自己爬取小说章节的想法，代码其实很简单，主要在于分析网页结构、正则匹配以及文件保存.

1. 分析网页结构

爬取小说主要需要爬取章节、正文，以及能保证爬取到所有的章节。以《大主宰》为例，其网页结构如下：

可以看到小说正文包含在一个id为content的div里，这极大的帮助了我们的爬取.章节名称保存在一个名为readtitle的js变量中.下一页的url位于a标签的href属性中

2. 正则匹配

通过分析网页结构，可以得到如下正则表达式：
* 章节名： readtitle = "(.+?)"
* 正文： <div id="content">(.+?)</div>
* 下一章：→ <a href="(.+?)">
如果当前章节是最新章节，那么其下一章的url是以 / 开头的，我们可以根据这个判断章节是否是最新章节.

3. 运行结果

以爬取《大主宰》为例，截至至6月30号，其最新章节为第一千两百五十四章最后的赢家，爬取其小说内容，保存为txt文件，测试结果如下：

4. 附录

你可以通过jslinxiaoli@foxmail.com联系我.
欢迎在github或者知乎上关注我 ^_^.
也可以访问个人网站: https://jslixiaolin.github.io

源代码如下：

最低0.47元/天解锁文章

请叫我林小李

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。