python识别网页文字_python-Web抓取-如何识别网页上的主要内容

python-Web抓取-如何识别网页上的主要内容

给定一个新闻文章网页(来自任何主要新闻来源,例如Times或Bloomberg),我想确定该页面上的主要文章内容,并排除其他杂项元素,例如广告,菜单,侧边栏,用户评论。

有什么通用的方法可以在大多数主要新闻网站上使用?

有什么好的数据挖掘工具或库? (最好是基于python的)

9个解决方案

29 votes

有很多方法可以做到这一点,但是,任何方法都不会永远有效。 这是两个最简单的方法:

如果它是一组已知的有限网站:在您的抓取工具中,将给定网站的每个url从普通url转换为打印url(无法真正在各个站点之间推广)

使用arc90可读性算法(参考实现在javascript中)[http://code.google.com/p/arc90labs-readability/]。 该算法的简短版本是在其中查找带有p标签的div。 它不适用于某些网站,但总体来说还不错。

gte525u answered 2020-07-28T23:54:53Z

8 votes

Diffbot提供了一个免费的(10.000 urls)API来执行此操作,不知道您是否正在寻找这种方法,但是它可能会帮助某人[http://www.diffbot.com/]

JordanBelf answered 2020-07-28T23:55:13Z

8 votes

不久前,我为此任务编写了一个简单的Python脚本。 它使用启发式方法根据文本块在DOM中的深度将它们组合在一起。 然后,将文本最多的组作为主要内容。 它不是完美的,但是通常对于新闻站点来说效果很好&#x

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值