基于广告链接和行块分布的网页正文抽取

最新推荐文章于 2024-09-04 10:31:20 发布

bodeyu

最新推荐文章于 2024-09-04 10:31:20 发布

阅读量643

点赞数 1

文章标签：网页正文提取算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_34119633/article/details/69856408

版权

一种新型的网页正文抽取算法，对于广告的屏蔽很有效果。

代码移步github

现在网上能搜到的正文抽取算法一般有两类：

Readability：该算法先建立DOM树，然后对网页源代码中不同的HTML标签进行判断，逐渐找到正文所在标签位置。该算法的主要优点是可以最大程度的保存网页正文的缩进、空行以及链接。
行块分布算法：主要是基于论文《基于行块分布函数的通用网页正文抽取》。该算法不需要建立DOM树，直接剔除HTML标签，剩下的网页文字之间会有一定的位置关系。

网上的这两种算法应用程度都很广，但是对两种算法进行测试后，发现两种算法对于正文和广告距离很近的网页的抽取效果都不是很好。

对于这种情况，我在参考了《基于行块分布函数的通用网页正文抽取》之后，提出了一种新的网页抽取算法，《基于广告链接和行块分布的网页正文抽取》。

该算法的最主要的改进是：在获得网页源代码之后，先将网页中所有的(a href)标签替换为*字符，然后剔除网页中的所有标签。再用行块分布函数对留下的网页文字之间的位置关系进行分析，但是在分析时要加入对广告文本的判断。

具体做法可以查看github项目 webarticle
有时间继续补充算法细节

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于广告链接和行块分布的网页正文抽取

一种新型的网页正文抽取算法，对于广告的屏蔽很有效果。代码移步github现在网上能搜到的正文抽取算法一般有两类：Readability：该算法先建立DOM树，然后对网页源代码中不同的HTML标签进行判断，逐渐找到正文所在标签位置。该算法的主要优点是可以最大程度的保存网页正文的缩进、空行以及链接。行块分布算法：主要是基于论文《基于行块分布函数的通用网页正文抽取》。该算法不需要建立DOM树，直接剔除
复制链接

扫一扫

bodeyu CSDN认证博客专家 CSDN认证企业博客

码龄9年

1: 原创

102万+: 周排名

156万+: 总排名

642: 访问

: 等级

17: 积分

0: 粉丝

1: 获赞

0: 评论

1: 收藏

私信

关注

热门文章

基于广告链接和行块分布的网页正文抽取 643

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。