java并发小说爬虫，多站点搜索下载，并实现Android客户端开发

最新推荐文章于 2024-04-09 09:30:00 发布

QzAiaQ

最新推荐文章于 2024-04-09 09:30:00 发布

阅读量1.2k

点赞数 2

分类专栏：傻乎乎的分享文章标签：爬虫小说爬虫 java爬虫 java 并发爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36168049/article/details/83867388

版权

本文讲述了使用Java实现并发小说爬虫的过程，包括明确产品需求，选择爬虫框架，处理编码问题，实现搜索功能，解析小说内容并发下载，并介绍了Android客户端的开发经验，如书籍追更功能的实现。通过并发和优化，提高了搜索和下载速度，确保了良好的用户体验。

摘要由CSDN通过智能技术生成

小说爬虫真的很简单，但要能优雅地使用却很麻烦。下面让我来诉说一下这几天的肝路历程。整个流程很完整，但不会很深入，主要是讲思路，给想要写类似功能的同学踩点坑，有什么细节问题直接评论就好。

文章目录

先奉上项目 Github，里面有实现代码以及jar和apk两种软件，几天课余时间肝出来的，有些想的不周到的地方还请见谅。

明确产品需求

最基本的要求，能够搜索小说，然后点击小说进行阅读或者下载。
同时，我们想要能够搜索到各个站点的小说，并且速度不能太慢。
Android客户端实现书籍收藏（追更），并自动检查是否有章节更新。
下载格式，我们不仅想要生成txt格式的书籍，还想要epub这种带目录图片的格式，最好还要能够支持mobi，然后直接导入kindle。
下载速度不能像市面上普通的小说软件一章一章的下，否则速度太慢会影响体验，最好要能达到宽带的最大速度。
该程序能有较好的可移植性，因为我们想要同时制作PC端和Android端的软件。

那么，开干！

总流程

在这里插入图片描述

关于爬虫框架

在爬网页内容这部分，并没有用什么黑科技，只是普通的正则匹配爬虫。我用了自己的工具类，后来有些网页有些太复杂也引入了Jsoup负责解析html。这里默认大家都明白怎么解析html内容。

关于编码方式的坑

大多数人一想到编码方式，肯定是首选uft-8了。但是在小说网站里，我们需要首选gbk，因为很多小说的某些字符是没有包含在utf-8里的，会变成？？常见的小说网站编码方式都是默认gbk。

因此在框架中需要保留一个方法设置编码方式，并且默认应为gbk。

如何实现搜索功能

这里我想到了两种方案。第一种是利用百度这些搜索引擎搜索小说，再对搜索引擎得到的结果进行解

最低0.47元/天解锁文章

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。