Python---爬虫---智能解析---newspaper

  1. 智能解析的深度学习切入方向

    1. 标题,一般它的字号是比较大的,而且长度不长,位置一般都在页面上方,而且大部分情况下它应该和 title 标签里的内容是一致的

    2. 正文,它的内容一般是最多的,而且会包含多个段落 p 或者图片 img 标签,另外它的宽度一般可能会占用到页面的三分之二区域,并且密度(字数除以标签数量)会比较大。

    3. 时间,不同语言的页面可能不同,但时间的格式是有限的,如 2019-02-20 或者 2019/02/20 等等,也有的可能是美式的记法,顺序不同,这些也有特定的模式可以识别。

    4. 广告,它的标签一般可能会带有 ads 这样的字样,另外大多数可能会处于文章底部、页面侧栏,并可能包含一些特定的外链内容。

    5. 区块位置、区块大小、区块标签、区块内容、区块疏密度等等多种特征,另外很多情况下还需要借助于视觉的特征

    6. 其实结合了算法计算、视觉处理、自然语言处理等各个方面的内容。如果能把这些特征综合运用起来,再经过大量的数据训练,是可以得到一个非常不错的效果的。

  2. Newspaper可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言等。

    作者从requests库的简洁与强大得到灵感,使用python开发的可用于提取文章内容的程序。

    支持10多种语言并且所有的都是unicode编码.

  3. python3 安装newspaper 

    pip3 install newspaper3k

  4. from newspaper import Article
    url = '你想要爬取的网站url'
    news = Article(url, language='zh')
    news .download()
    news .parse()
    print(news.text)
    print(news.title)
    print(news.html)
    print(news.authors)
    print(news.top_image)
    print(news.movies)
    print(news.keywords)
    
    or 
    
    ''''
    import newspaper
    news = newspaper.build(url, language='zh')
    article = news.articles[0]
    article.download()
    article.parse()
    print(article.text)
    ''''
    
    

     

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值