Python-goose项目是用Python重写的Goose,Goose原来是用Java写的文章提取工具。Python-goose的目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片等信息,支持中文网页。
Python-goose可提取的信息包括:
- 文章主体内容
- 文章主要图片
- 文章中嵌入的任何Youtube/Vimeo视频
- 元描述
- 元标签
Python-goose许可为Apache 2.0。
https://github.com/grangier/python-goose
安装
git clone https://github.com/grangier/python-goose.git cd python-goose pip install -r requirements.txt python setup.py install 一个简单的例子from goose import Goose url = 'http://edition.cnn.com/2012/02/22/world/europe/uk-occupy-london/index.html?hpt=ieu_c2' g = Goose() article = g.extract(url=url) article.title #u'Occupy London loses eviction fight' article.meta_description #"Occupy London protesters who have been camped outside the landmark St. Paul's Cathedral for the past four mo