网页去噪,获取网页正文相关开源项目

本文探讨了网页去噪及文本抽取技术,通过对比分析Decruft、Python readability、Python boilerpipe和Goose等开源项目的特性,推荐使用Goose进行高效、灵活的文本内容抽取。介绍了各工具的功能特点与应用实例,特别强调了如何利用这些技术从网页中提取有价值的信息。
摘要由CSDN通过智能技术生成

转载自:http://blog.csdn.net/cscmaker/article/details/8841198

(1)网页去噪

         网页去噪需要去掉与网页内表达内容不相关的文字,如广告,评论等等。现在对于博客、新闻类的网页去噪已经有很多的应用,比如常用的印象笔记、有道笔记就用到了相关的技术。

         因为项目的需要,也需要对网页进行去噪,留下有用的内容。所以在网上找了相关的网页去噪的开源项目。


(2)参考链接

        主要参考的链接是这篇“网页正文抽取工具”, 应该是抓取的新浪weibo上的相关的微博内容。里面介绍了给出了项目的地址,有Java、C++、C#、Perl、Python的。

   因为项目是Python写的,所以初步选定使用 Decruft , Python readability ,  Python boilerpipe ,Pyhon Goose这几种。


(3)实践操作

        Python readability的使用:

[python]  view plain copy
  1. from readability.readability import Document  
  2.     import urllib  
  3.     html = urllib.urlopen(url).read()  
  4.     readable_article = Document(html).summary()  
  5.     readable_title = Document(html).short_title()  
      最后抽取出来的readable_article是带HTML标签的文本。还需要进行clean html操作。如果需要得到纯文本内容,还需要做其他工作

      “decruft is a fork of python-readability to make it faster. It also has some logic corrections and improvements along the way.”  (引自:http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/)

        decruft是Python readability的fork版本,其主要提高了readability的速度。decruft的源码是放在Goolge上的,发现他只有0.1版本,而且是10年9月的,但是Python-readability一直在更新的,其核心的readability.py是7个月前更新的,所以不能保证decruft的性能要比现在的readability好,我没有下载decruft进行试验,有兴趣可以自己试验一下。

         Python-boilerpipe:是Boilerpipe的Python版本的Warpper,在使用的时候需要依赖jpype, chardet.  在构造Extractor的时候可以定制自己需要的抽取器,具体有:


[python]  view plain copy
  1. DefaultExtractor  
  2. ArticleExtractor  
  3. ArticleSentencesExtractor  
  4. KeepEverythingExtractor  
  5. KeepEverythingWithMinKWordsExtractor  
  6. LargestContentExtractor  
  7. NumWordsRulesExtractor  
  8. CanolaExtractor  

       这个项目可以自己选择抽取出的正文内容格式:可以是纯文本的,也可以是携带HTML的。

       Python-Goose:

        经过试验,决定使用Goose,可以在这个网址上测试 http://jimplush.com/blog/goose Goose的抽取效果。Goose还能够获得Meta description。

        Goose最后可以获得抽取后的纯文本。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值