java爬取百度百科词条

最新推荐文章于 2021-03-13 00:08:24 发布

IT独白者

最新推荐文章于 2021-03-13 00:08:24 发布

阅读量1.7k

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/sun_wangdong/article/details/78220474

版权

lz在之前的一篇博客中，用python实现了爬取百度百科的词条，就在如何用java来实现相同的功能，果不其然，java用一个jsoup的第三方库工具就可以很简单地实现爬取百度百科的词条。同样的，将这个爬取过程分成5个部分来实现。分别是connectnet连接url部分、parsehtml获取html相关内容部分、startspyder部分、store存储url部分、urlmanager的url管理部分。以下一一来讲解：

一、parsehtml部分

此部分用于对html中的标签进行分析，提取出相应的可以内容(url和文字内容)。

public class ParseHtml
{
    int num = 1;
    public void parse_a(Document document,List<String> urls) throws IOException
    {

        Elements links = document.select("div.lemma-summary");   //首先通过select来获取标签为div的内容

        //Elements links = document.select("[href*=/item]");
        for(Element link : links)        //因为标签为div的内容有很多，所以用elements来保存
        {
            Elements Link = link.getElementsByTag("a"

最低0.47元/天解锁文章

IT独白者

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
java爬取百度百科词条

lz在之前的一篇博客中，用python实现了爬取百度百科的词条，就在如何用java来实现相同的功能，果不其然，java用一个jsoup的第三方库工具就可以很简单地实现爬取百度百科的词条。同样的，将这个爬取过程分成5个部分来实现。分别是connectnet连接url部分、parsehtml获取html相关内容部分、startspyder部分、store存储url部分、urlmanager的url管理
复制链接

扫一扫