jsoup爬取分页的内容

最新推荐文章于 2023-05-15 16:55:18 发布

depthwhite

最新推荐文章于 2023-05-15 16:55:18 发布

阅读量4.2k

点赞数

分类专栏： jsoup 文章标签： jsoup

本文链接：https://blog.csdn.net/bbs_baibisen/article/details/78789118

版权

jsoup 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

网站显示内容基本上都是通过分页来显示，我们用jsoup简单爬取页面仅能获取本页的内容，对于其他页面的内容该如何爬取？其实很简单，就是通过检查下一页的链接地址，基本上下一页的超链接地址都是有规律的，基本上都是*****/1或者*****/2等等，所以我们可以按照这个规律，循环访问页面，抓取信息即可；当然，通过选择器直接将下一页的url获取出来也可以，不过我觉得直接分析还是比较简单。

上代码：

    public int startSpiderFullHandler(String url) {
        int resultCode = 0;
        Document document = null;
        List<String> titleList = new ArrayList<>();
        for (int i = 0; i < 7; i++) {
            document = getDocument(url + "/page/" + (i + 1));
            //全部标题
            Elements elements2 = document.getElementsByClass("meta-title");
            for (Element element : elements2) {
                logger.info("全部标题" + element.text());
                titleList.add(element.text());
            }
            logger.info("本页文章：" + elements2.size());
        }
        logger.info("文章总数：" + titleList.size());
        return resultCode;
    }

如果需要其他代码，我上传到我的资源里，可以直接下载

http://download.csdn.net/download/bbs_baibisen/10156414

depthwhite

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
jsoup爬取分页的内容

网站显示内容基本上都是通过分页来显示，我们用jsoup简单爬取页面仅能获取本页的内容，对于其他页面的内容该如何爬取？其实很简单，就是通过检查下一页的链接地址，基本上下一页的超链接地址都是有规律的，基本上都是*****/1或者*****/2等等，所以我们可以按照这个规律，循环访问页面，抓取信息即可；当然，通过选择器直接将下一页的url获取出来也可以，不过我觉得直接分析还是比较简单。上代码： p...
复制链接

扫一扫

专栏目录