java 采集器_使用jsoup来写小说采集器

最新推荐文章于 2022-06-21 16:12:56 发布

imToken-Daisy

最新推荐文章于 2022-06-21 16:12:56 发布

阅读量172

点赞数

文章标签： java 采集器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35086195/article/details/114610495

版权

现在的小说越来越难找了，一般都是在线的,费流量且收藏起来麻烦。

所以我觉得写一个整理器，从某些小说网站获取小说内容并保存为txt文件。

我们使用jsoup

它的maven描述为:

org.jsoup

jsoup

1.11.2

我们先找个小说网站，比如我们百度“思路客”，点击一个网站(http://www.siluwu.com)进去后，搜索烟雨江南的“亵渎”

搜索好文章点进去后

这就是文章列表。

下面就开始分析和采集了

这里我们需要分析文章。

首先我们先获取小说的文章名，我们知道文章名是id为title的div

我们获取ID为title的内容。他的路径是"#title" 和jQuery很相似。String xiaoshuoTitle = JsoupUtil.getElementString(doc, "#title");

下面我们来获取文章目录:

根据分析我们可以得知文章在一个ID为list的层下面.

所以我们可以使用Elements es = JsoupUtil.getElements(doc, "#list > dl > dd > a");

这样我们就可以获取所有的文章链接。

我们可是使用 e.attr("href") 来获取链接地址使用 e.text() 来获取链接内容，也就是文章标题。

代码如下:private static List getList(Document doc) throws IOException{

Elements es = JsoupUtil.getElements(doc, "#list > dl > dd > a");

List as = new ArrayList();for(int i =0 ; i

Article a = new Article();

Element e = es.get(i);

a.setLink(e.attr("href"));

a.setTitle(e.text());

as.add(a);

}return as;

}

这样我们就可以拿到一个文章集合。下面就是去解析每篇文章的标题:

我们发现文章在一个ID为content的层里面。

所以我们可以通过 JsoupUtil.getElements(doc, "#content").first(); 来获取文章所在层。并且可以通过 html()方法来返回内容。

下面我们要做的就是将所有的html标签去除，并且将
替换为换行。String content = getArticle(root_url+link);

content = content.replaceAll(" ", " ");

content = content.replaceAll("
", "\n");

content = content.replaceAll("\n+", "\n");

content = content.replaceAll("]+>", "");

content = content.replace("read_content_up();", "");

content = title+"\n"+content;

最后我们只需要将字符串拼接成为小说，并保存为txt文件。这样把txt导入到手机里就是完整小说了。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java 采集器_使用jsoup来写小说采集器

现在的小说越来越难找了，一般都是在线的,费流量且收藏起来麻烦。所以我觉得写一个整理器，从某些小说网站获取小说内容并保存为txt文件。我们使用jsoup它的maven描述为:org.jsoupjsoup1.11.2我们先找个小说网站，比如我们百度“思路客”，点击一个网站(http://www.siluwu.com)进去后，搜索烟雨江南的“亵渎”搜索好文章点进去后这就是文章列表。下面就开始分析和采集...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。