-
智能解析的深度学习切入方向
-
标题,一般它的字号是比较大的,而且长度不长,位置一般都在页面上方,而且大部分情况下它应该和 title 标签里的内容是一致的
-
正文,它的内容一般是最多的,而且会包含多个段落 p 或者图片 img 标签,另外它的宽度一般可能会占用到页面的三分之二区域,并且密度(字数除以标签数量)会比较大。
-
时间,不同语言的页面可能不同,但时间的格式是有限的,如 2019-02-20 或者 2019/02/20 等等,也有的可能是美式的记法,顺序不同,这些也有特定的模式可以识别。
-
广告,它的标签一般可能会带有 ads 这样的字样,另外大多数可能会处于文章底部、页面侧栏,并可能包含一些特定的外链内容。
-
区块位置、区块大小、区块标签、区块内容、区块疏密度等等多种特征,另外很多情况下还需要借助于视觉的特征
-
其实结合了算法计算、视觉处理、自然语言处理等各个方面的内容。如果能把这些特征综合运用起来,再经过大量的数据训练,是可以得到一个非常不错的效果的。
-
-
Newspaper可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言等。
作者从requests库的简洁与强大得到灵感,使用python开发的可用于提取文章内容的程序。
支持10多种语言并且所有的都是unicode编码.
- python3 安装newspaper
pip3 install newspaper3k
-
from newspaper import Article url = '你想要爬取的网站url' news = Article(url, language='zh') news .download() news .parse() print(news.text) print(news.title) print(news.html) print(news.authors) print(news.top_image) print(news.movies) print(news.keywords) or '''' import newspaper news = newspaper.build(url, language='zh') article = news.articles[0] article.download() article.parse() print(article.text) ''''
Python---爬虫---智能解析---newspaper
最新推荐文章于 2024-04-24 11:21:11 发布