之前使用其他方法,诸如xpath,css,正则表达式,beautifulsoup来解析新闻页面的时候,总是会遇到这样那样各种奇奇怪怪的问题,让人很头疼。
最近学到一个新的包newspaper,用来抓取新闻正文,真的很好用呢。
这个包是需要自己重新安装的,我使用的是pycharm。
在settings配置环境,添加包newspaper的时候总是添加不进去。那就pip吧!
于是打开命令行窗口,输入pip3 install --ignore-installed --upgrade newspaper3k,等待一会就安装好了。
如果文章没有指明使用的什么语言的时候,Newspaper会尝试自动识别。
from newspaper import Article
url = '你想要爬取的网站url'
news = Article(url, language='zh')
news .download()
news .parse()
print(news.text)
print(news.title)
print(news.html)
print(news.authors)
print(news.top_image)
print(news.movies)
print(news.keywords)
print(news.summary)
也可以直接导入包,如果语言是一致的,也可以直接声明
import newspaper
news = newspaper.build(url, language='zh')
article = news.articles[0]
article.download()
article.parse()
print(article.text)