python网页文字提取算法_python正文内容提取

最新推荐文章于 2024-05-14 18:07:14 发布

小小小簪娘

最新推荐文章于 2024-05-14 18:07:14 发布

阅读量896

点赞数

文章标签： python网页文字提取算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36160969/article/details/113675493

版权

平时打开一个网页，除了文章的正文内容，通常会有一大堆的导航，广告和其他方面的信息。本博客的目的，在于说明如何从一个网页中提取出文章的正文内容，而过渡掉其他无关的的信息。

本方法是基于文本密度的方法，最初的想法来源于哈工大的《基于行块分布函数的通用网页正文抽取算法》，本文基于此进行一些小修改。

约定：

本文基于网页的不同行来进行统计，因此，假设网页内容是没有经过压缩的，就是网页有正常的换行的。

有些新闻网页，可能新闻的文本内容比较短，但其中嵌入一个视频文件，因此，我会给予视频较高的权重；这同样适用于图片，这里有一个不足，应该是要根据图片显示的大小来决定权重的，但本文的方法未能实现这一点。

由于广告，导航这些非正文内容通常以超链接的方式出现，因此文本将给予超链接的文本权重为零。

这里假设正文的内容是连续的，中间不包含非正文的内容，因此实际上，提取正文内容，就是找出正文内容的开始和结束的位置。

步骤：

首先清除网页中CSS,Javascript,注释，Meta,Ins这些标签里面的内容，清除空白行。

计算每一个行的经过处理的数值(1)

计算上面得出的每行文本数的最大正子串的开始结束位置

其中第二步需要说明一下：

对于每一行，我们需要计算一个数值，这个数值的计算如下：

一个图片标签img，相当于出现长度为50字符的文本 (给予的权重)，x1,

一个视频标签embed，相当于出现

最低0.47元/天解锁文章

小小小簪娘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python网页文字提取算法_python正文内容提取

平时打开一个网页，除了文章的正文内容，通常会有一大堆的导航，广告和其他方面的信息。本博客的目的，在于说明如何从一个网页中提取出文章的正文内容，而过渡掉其他无关的的信息。本方法是基于文本密度的方法，最初的想法来源于哈工大的《基于行块分布函数的通用网页正文抽取算法》，本文基于此进行一些小修改。约定：本文基于网页的不同行来进行统计，因此，假设网页内容是没有经过压缩的，就是网页有正常的换行的。有些新闻网页...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。