网页去噪，获取网页正文相关开源项目

最新推荐文章于 2021-06-16 02:47:58 发布

HuntingGo

最新推荐文章于 2021-06-16 02:47:58 发布

阅读量1.1k

点赞数

分类专栏： python 文章标签： python 爬虫

python 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

本文探讨了网页去噪及文本抽取技术，通过对比分析Decruft、Python readability、Python boilerpipe和Goose等开源项目的特性，推荐使用Goose进行高效、灵活的文本内容抽取。介绍了各工具的功能特点与应用实例，特别强调了如何利用这些技术从网页中提取有价值的信息。

摘要由CSDN通过智能技术生成

转载自：http://blog.csdn.net/cscmaker/article/details/8841198

（1）网页去噪

网页去噪需要去掉与网页内表达内容不相关的文字，如广告，评论等等。现在对于博客、新闻类的网页去噪已经有很多的应用，比如常用的印象笔记、有道笔记就用到了相关的技术。

因为项目的需要，也需要对网页进行去噪，留下有用的内容。所以在网上找了相关的网页去噪的开源项目。

（2）参考链接

主要参考的链接是这篇“网页正文抽取工具”，应该是抓取的新浪weibo上的相关的微博内容。里面介绍了给出了项目的地址，有Java、C++、C#、Perl、Python的。

因为项目是Python写的，所以初步选定使用 Decruft ， Python readability ， Python boilerpipe ，Pyhon Goose这几种。

（3）实践操作

Python readability的使用：

[python]view plaincopy 
   
 from readability.readability import Document  
     import urllib  
     html = urllib.urlopen(url).read()  
     readable_article = Document(html).summary()  
     readable_title = Document(html).short_title()  

最后抽取出来的readable_article是带HTML标签的文本。还需要进行clean html操作。如果需要得到纯文本内容，还需要做其他工作

“decruft is a fork of python-readability to make it faster. It also has some logic corrections and improvements along the way.” （引自：http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/）

decruft是Python readability的fork版本，其主要提高了readability的速度。decruft的源码是放在Goolge上的，发现他只有0.1版本，而且是10年9月的，但是Python-readability一直在更新的，其核心的readability.py是7个月前更新的，所以不能保证decruft的性能要比现在的readability好，我没有下载decruft进行试验，有兴趣可以自己试验一下。

Python-boilerpipe：是Boilerpipe的Python版本的Warpper，在使用的时候需要依赖jpype, chardet. 在构造Extractor的时候可以定制自己需要的抽取器，具体有：

[python]view plaincopy 
   
 DefaultExtractor  
 ArticleExtractor  
 ArticleSentencesExtractor  
 KeepEverythingExtractor  
 KeepEverythingWithMinKWordsExtractor  
 LargestContentExtractor  
 NumWordsRulesExtractor  
 CanolaExtractor