Python---爬虫---智能解析---newspaper

最新推荐文章于 2024-04-24 11:21:11 发布

agsddd

最新推荐文章于 2024-04-24 11:21:11 发布

阅读量847

点赞数

分类专栏：爬虫开发爬虫开发历程

本文链接：https://blog.csdn.net/weixin_41245276/article/details/87553346

版权

爬虫开发同时被 2 个专栏收录

46 篇文章 0 订阅

订阅专栏

爬虫开发历程

20 篇文章 0 订阅

订阅专栏

智能解析的深度学习切入方向
1. 标题，一般它的字号是比较大的，而且长度不长，位置一般都在页面上方，而且大部分情况下它应该和 title 标签里的内容是一致的
2. 正文，它的内容一般是最多的，而且会包含多个段落 p 或者图片 img 标签，另外它的宽度一般可能会占用到页面的三分之二区域，并且密度（字数除以标签数量）会比较大。
3. 时间，不同语言的页面可能不同，但时间的格式是有限的，如 2019-02-20 或者 2019/02/20 等等，也有的可能是美式的记法，顺序不同，这些也有特定的模式可以识别。
4. 广告,它的标签一般可能会带有 ads 这样的字样，另外大多数可能会处于文章底部、页面侧栏，并可能包含一些特定的外链内容。
5. 区块位置、区块大小、区块标签、区块内容、区块疏密度等等多种特征，另外很多情况下还需要借助于视觉的特征
6. 其实结合了算法计算、视觉处理、自然语言处理等各个方面的内容。如果能把这些特征综合运用起来，再经过大量的数据训练，是可以得到一个非常不错的效果的。
Newspaper可以用来提取新闻、文章和内容分析。使用多线程，支持10多种语言等。

作者从requests库的简洁与强大得到灵感，使用python开发的可用于提取文章内容的程序。

支持10多种语言并且所有的都是unicode编码.
python3 安装newspaper

pip3 install newspaper3k

from newspaper import Article
url = '你想要爬取的网站url'
news = Article(url, language='zh')
news .download()
news .parse()
print(news.text)
print(news.title)
print(news.html)
print(news.authors)
print(news.top_image)
print(news.movies)
print(news.keywords)

or 

''''
import newspaper
news = newspaper.build(url, language='zh')
article = news.articles[0]
article.download()
article.parse()
print(article.text)
''''