利用python采集电影详情信息(下)

上次猫哥讲到了利用Python抓取豆瓣电影详细信息的下半部分,这次猫哥将继续向下讲解,进行更深入的信息抓取。

我们上次已经获取到了所有电影的URL链接。

 得到了每个电影的URL之后,我们就可以逐个的进行请求并获取详细电影数据。

从获取的信息我们可以看到,虽然有内容,但是看起来却很乱,接下来我们对提取的内容进行处理。

如果你认为这样就已经结束了的话,那可就想多了。我们要对我们的爬虫进行伪装,要不然刚跑两步就会被人家打断小腿

1、设置请求头headers

2、设置随机延时0~3秒

3、设置代理IP,测试的话用免费的就可以。

在代码中使用代理IP

4、保存,至于如何保存猫哥在这里就不讲了,网上有很多资料。而猫哥会在Scrapy项目为大家讲解更加简便的存储方式。

本次内容到这里就结束了,下期猫哥将告诉大家如何配置Scrapy框架环境,后期爬虫都会在scrapy框架中完成。

关注微信公众号,回复电影02,免费获取本次课程源码。回复电子书,免费获得《Python核心编程》、《Python网络数据采集》、《Python进行数据分析完整版》三本Python电子书。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值