用htmlparser包进行网页去噪音

 

以上是自己查看别人的入门教程写下来,算是copy啦....

 

网页去噪

    从网站上抓取的网页是HTML格式的文件,其中包含了很多的标签文本,而其中的主要内容部分只是其中的一部分。把网页上文本(即可以显示在浏览器的文本)过滤出来可以大大减少文件的大小。一般情况下一个网页中正文部分很少有链接的,而在网页中像导航条、广告信息等一些链接显示的文本显然不是网页中的主要内容,并且一般情况下这些链接的总数基本上就是网页中链接的总数,因此把链接对应的锚点文字去除也可以达到去噪的目的。在实验中使用的是开源HTML分析包HTMLParser,使用这个包可以很快的得到HTML中的链接和文本。实验中使用的是过滤的方法来访问每一个Parser树的节点,使用TextNode和LinkTag来过滤Parser生成的树。一般的情况是一个链接后对应的是一个锚点的文本,根据这个特点,我们在检测到一个链接后就认为往下的文本就是它的节点,并将这个文本删除,最终获得的文本和正文的内容更相近。使用这种方法可以去除很大部分的链接内容,而这些内容和网页的正文是没有很大关联的。这种方法对在正文中有很多链接并且链接的文本内容很短的情况处理不是很好,会造成内容丢失。

图片是去噪过程.

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值