webmagic学习笔记

最新推荐文章于 2023-03-06 00:35:00 发布

wang23109203

最新推荐文章于 2023-03-06 00:35:00 发布

阅读量1k

点赞数 1

分类专栏： Java开发

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wang23109203/article/details/41673661

版权

Java开发专栏收录该内容

4 篇文章 0 订阅

订阅专栏

今天来看看页面出来的过程

在class Spider中有run函数，调用了 processRequest(requestFinal)完成对页面的下载和处理。在这个函数里面先调用downloader.download(request, this);完成页面的下载， pageProcessor.process(page);完成对页面的处理过程，随后可以进行抽取结果的持久的过程。爬虫下载页面以及后续处理的大致过程，我现在要分析的主要是页面的处理过程！

pageProcessor.process()这个函数需要用户自己来定义，这里主要涉及HTML这个类，这个类完成了对页面的处理。HTML继承自htmlnode，htmlnode则继承自abstractselectable，abstractselectable则是实现了selectable接口。

selectable中有若干函数，用于实现对结果的抽取。主要还是要看HTML这个类，虽然这个类有多个构造函数，但是下载页面后将下载的内容转换为HTML的时候调用的是 Html(String text) ，然后调用 this.document = Jsoup.parse(text);用jsoup来解析这个string类型的HTML。在这个类中实现了对页面的解析，当然类中调用了之前已经定义的多个选择器！思绪有点乱，暂时这样！

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
webmagic学习笔记

今天来看看页面出来的过程在class Spider中有run函数，调用了 processRequest(requestFinal)完成对页面的下载和处理。在这个函数里面先调用downloader.download(request, this);完成页面的下载， pageProcessor.process(page);完成对页面的处理过程，随后可以进行抽取结果的持久的过程。爬虫下载页面以及后
复制链接

扫一扫

专栏目录

wang23109203 CSDN认证博客专家 CSDN认证企业博客

码龄13年

5: 原创

61万+: 周排名

63万+: 总排名

4867: 访问

: 等级

114: 积分

2: 粉丝

3: 获赞

0: 评论

1: 收藏

私信

关注

热门文章

分类专栏

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。