python爬取新浪新闻首页_python 爬虫 入门 爬取新浪新闻

1

大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现

2

首先,我们要写爬虫,可以借鉴一些工具,我们先从简单的入门,首先说到请求,我们就会想到python中,非常好用的requests,然后说到分析解析就会用到bs4,然后我们可以直接用pip命令来实现安装,假如安装的是python3,也可以用pip3

890dfb4a2f27e7efe24c3cb419dd3340b7f3f5e3.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

3

安装好这两个类库之后,然后我们就可以先请求数据,查看下新闻的内容,这个时候我们有可能看到的是乱码

aebdff86242fa8724255e951bfdaf05e4b23e9e3.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

4

怎么处理乱码呢?我们可以拿浏览器打开网页,右键查看网页源代码,我们可以看到编码格式为utf-8

6061b9cd0c6efbf2e1f92262127bbbf4db58dae3.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

604e9556ad042e68f9a3065485f85856d43dd1e3.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

5

然后我们在输出的时候添加编码格式,就可以查看到正确编码的数据了

a965c6e9ccd2bb66a613d2f59b2a04e23fa2c6e3.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

6

拿到数据之后,我们需要先分析数据,看我们想要的数据在哪里,我们打开浏览器,右键审查,然后按示例图操作,就可以看到我们新闻所在的标签,假如是windows系统,选择开发中工具里面一样

3fe32442a07aa0104379bb8dbfbb19efa35f3ee0.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

a31e1214c27bd28281c2f6f33cb1eef97ebd36e0.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

7

我们知道属于哪个标签之后,就是用bs4来解析拿到我们想要的数据了

3d002dbad341037df37c9ec3a9bc7dc5ce672de0.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

8

我们想要拿到新闻的具体标题,时间,地址,就需要我们在对元素进行深入的解析,我们还是按之前的方法,找到标题所在的标签

b955ead0b503c8d258b510fb498333bf3aef21e0.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

9

然后我们编写标题时间地址的python程序,就可以爬取出对应的标题内容,时间和地址

b57fb6db574afa32bad77b4254b2dc19cf2c14e0.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

10

简单的python爬取新闻就讲到这里啦

END

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值