百度 资讯 爬虫解决方案

前言:本文介绍的是基于关键词搜索实现百度资讯的爬虫解决办法

第一步:关键词搜索

  1. 我们要找到适合自己的关键词,注意关键词决定着我们能否搜索到优质的数据,所以找到足够多的关键词,优质的关键词,能让我们采集更多的数据。

  2.搜索按照时间大小排序,在第一页解析出来  新闻标题,新闻来源,新闻发布时间,新闻简单描述,新闻url链接。

                            

 

   3.新闻相信信息解析:

       例如下面的这边新闻,如何解析出来红色的部分信息呢?

    

 

     策略一: 使用 newspaper,优点是能解析出来大部分的网页,缺点是速度慢,这个Python第三方库不是万能的,比如一些负责的网页是解析不出来信息的。

         使用代码

            

            from newspaper import Article
            url = 'http://www.npc.gov.cn/npc/zhibo/zzzb30/2018-10/26/content_2064215.htm'
            a = Article(url, language='zh') # Chinese
            a.download()
            a.parse()
            print "11111",a.text
            print "22222",a.title

        结果截图:
            

 
 
 
      策略二: 自己写解析规则;
        新闻网页都有什么解析规则呢? 比如都有 开始都有来源,时间等,结束有 责任编辑等词语,自己研究出来一个解析规则

 

转载于:https://www.cnblogs.com/xuchunlin/p/10181161.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值