利用python采集电影详情信息（下）

最新推荐文章于 2023-12-05 00:05:21 发布

小獾哥

最新推荐文章于 2023-12-05 00:05:21 发布

阅读量1.2k

点赞数 2

分类专栏：数据采集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26870933/article/details/86491319

版权

数据采集专栏收录该内容

35 篇文章 3 订阅

订阅专栏

上次猫哥讲到了利用Python抓取豆瓣电影详细信息的下半部分，这次猫哥将继续向下讲解，进行更深入的信息抓取。

我们上次已经获取到了所有电影的URL链接。

得到了每个电影的URL之后，我们就可以逐个的进行请求并获取详细电影数据。

从获取的信息我们可以看到，虽然有内容，但是看起来却很乱，接下来我们对提取的内容进行处理。

如果你认为这样就已经结束了的话，那可就想多了。我们要对我们的爬虫进行伪装，要不然刚跑两步就会被人家打断小腿。

1、设置请求头headers

2、设置随机延时0~3秒

3、设置代理IP，测试的话用免费的就可以。

在代码中使用代理IP

4、保存，至于如何保存猫哥在这里就不讲了，网上有很多资料。而猫哥会在Scrapy项目为大家讲解更加简便的存储方式。

本次内容到这里就结束了，下期猫哥将告诉大家如何配置Scrapy框架环境，后期爬虫都会在scrapy框架中完成。

关注微信公众号，回复电影02，免费获取本次课程源码。回复电子书，免费获得《Python核心编程》、《Python网络数据采集》、《Python进行数据分析完整版》三本Python电子书。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。