我用 Python 爬了淘宝 2000款套套，发现了一个秘密！

最新推荐文章于 2022-12-29 15:59:49 发布

DevolperFront

最新推荐文章于 2022-12-29 15:59:49 发布

阅读量961

点赞数 1

点击上方“开发者技术前线”，选择“星标”

21：30 在看真爱

640?wx_fmt=jpeg

背景

你买的避孕套可能是假的！

近日，来自西安的周女士在一家便利店里买了一盒避孕套，当天晚上便使用了一个。事后不到三个小时，周女士就觉得下身不舒服，但也没有太在意，也许过段时间就好了。

到了半夜，周女士才意识到问题的严重性，她的不适感没有丝毫减弱反而更严重了。

周女士本能地觉得避孕套有问题，因为这次买的套和以前的对比多了一股香味。

第二天，周女士去店里找说法。

在工作人员的陪同下，周女士去医院做了妇科检查，结果也证实了周女士得的是真菌感染引起的霉菌性**炎。

这个结果让周女士更加断定了避孕套是假货的事实。后来记者致电便利店负责人询问情况，他的回答却模棱两可：

真的也好假的也罢，反正造成伤害了，你有什么诉求和要求都可以提。

意思就是，你想要的多少赔偿你说，反正我不承认自己卖的是假货，还一直坚称货是公司统一配送的。于是我们要去看看网站买的是否有问题？

一、淘宝商品信息爬取

这篇文章主要是讲解如何爬取数据，数据的分析放在下一篇。之所以分开是因为爬取淘宝遇到的问题太多，而猪哥又打算详细再详细的为大家讲解如何爬取，所以考虑篇幅及同学吸收率方面就分两篇讲解吧！宗旨还会不变：让小白也能看得懂！

本次爬取是调用淘宝pc端搜索接口，对返回的数据进行提取、然后保存为excel文件！

看似一个简单的功能却包含了很多问题，我们来一点一点往下看吧！

二、爬取单页数据

开始写一个爬虫项目我们都需要量化后再分步，而一般第一步便是先爬取一页试试！

1.查找加载数据URL

我们在网页中打开淘宝网，然后登录，打开chrome的调试窗口，点击network，然后勾选上Preserve log，在搜索框中输入你想要搜索的商品名称
640?wx_fmt=png
这是第一页的请求，我们查看了数据发现：返回的商品信息数据插入到了网页里面，而不是直接返回的纯json数据！

2. 是否有返回纯json数据接口？

然后猪哥就好奇有没有返回纯json的数据接口呢？于是我就点了下一页（也就是第二页）
640?wx_fmt=png
请求第二页后猪哥发现返回的数据竟然是纯json，然后比较两次请求url，找到只返回json数据的参数！

通过比较我们发现搜索请求url中如果带ajax=true参数的话就直接返回json数据，那我们是不是可以直接模拟直接请求json数据！

所以猪哥就直接使用第二页的请求参数去请求数据（也就是直接请求json数据），但是请求第一页就出现错误：
640?wx_fmt=png
直接返回一个链接而不是json数据，这个链接是什么鬼？点一下。。。

铛铛铛，滑块出现，有同学会问：用requests能搞定淘宝滑块吗？猪哥咨询过几个爬虫大佬，滑块的原理是收集响应时间，拖拽速度，时间，位置，轨迹，重试次数等然后判断是否是人工滑动。而且还经常变算法，所以猪哥选择放弃这条路！

3.使用请求网页接口

所以我们只能选择类似第一页（请求url中不带ajax=true参数，返回整个网页形式）的请求接口，然后再把数据提取出来！

640?wx_fmt=png
这样我们就可以爬取到淘宝的网页信息了

三、提取商品属性

爬到网页之后，我们要做的就是提取数据，这里先从网页提取json数据，然后解析json获取想要的属性。

1.提取网页中商品json数据

既然我们选择了请求整个网页，我们就需要了解数据内嵌在网页的哪个位置，该怎么提取出来。

经过猪哥搜索比较发现，返回网页中的js参数：g_page_config就是我们要的商品信息，而且也是json数据格式！
640?wx_fmt=png
然后我们写一个正则就可以将数据提取出来了！

goods_match = re.search(r'g_page_config = (.*?)}};', response.text)

2.获取商品价格等属性

要想提取json数据，就要了解返回json数据的结构，我们可以将数据复制到一些json插件或在线解析
640?wx_fmt=png
了解json数据结构之后，我们就可以写一个方法去提取我们想要的属性了

四、保存为excel

操作excel有很多库，网上有人专门针对excel操作库做了对比与测评感兴趣可以看看：https://dwz.cn/M6D8AQnq

猪哥选择使用pandas库来操作excel，原因是pandas比较操作方便且是比较常用数据分析库！

1.安装库

pandas库操作excel其实是依赖其他的一些库，所以我们需要安装多个库

pip install xlrd
pip install openpyxl
pip install numpy
pip install pandas

2.保存excel

640?wx_fmt=png
这里有点坑的是pandas操作excel没有追加模式，只能先读取数据后使用append追加再写入excel！

查看效果
640?wx_fmt=png

五、批量爬取

一次爬取的整个流程（爬取、数据提取、保存）完成之后，我们就可以批量循环调用了。
640?wx_fmt=png
这里设置的超时秒数是猪哥实践出来的，从3s、5s到10s以上，太频繁容易出现验证码！

猪哥分多次爬取了两千多条数据

六、爬取淘宝遇到的问题

爬取淘宝遇到了非常多的问题，这里为大家一一列举：

1.登录问题

640?wx_fmt=png
问题：申请st码失败怎么办？
回答：更换_verify_password方法中的所有请求参数。

参数没问题的话登录基本都会成功！

2.代理池

为了防止自己的ip被封，猪哥使用了代理池。爬取淘宝需要高质量的ip才能爬取，猪哥试了很多网上免费的ip，基本都不能爬取。
640?wx_fmt=png

但是有一个网站的ip很好 站大爷：http://ip.zdaye.com/dayProxy.html ，这个网站每小时都会更新一批ip，猪哥试过还是有很多ip是可以爬取淘宝的。

3.重试机制

为了防止正常请求失败，猪哥在爬取的方法上加上了重试机制！
640?wx_fmt=png
需要安装retry库

pip install retry

4.出现滑块

上面那些都没问题，但是还是会出现滑块，猪哥测试过很多次，有些爬取20次-40次左右最容易出现滑块。
640?wx_fmt=png
出现滑块只能等个半小时后继续爬，因为目前还不能使用requests库解决滑块，后面学习selenium等其他框架看看是否能解决！

5.目前这只爬虫

目前这只爬虫并不完善，只能算是半成品，有很多可以改进的地方，比如自动维护ip池功能，多线程分段爬取功能，解决滑块问题等等，后面我们一起来慢慢完善这只爬虫，使他可以成为一只完善懂事的爬虫！

源码上传到后台上，回复「 TT」即可获得。

如果你觉得文章还不错，请大家点赞分享下。防止买错TT了

更多好文：

昨晚家里停网后，我动了邪念用Python破解了隔壁小姐姐的wifi密码

糟了，偶看看某些网站记录被老婆用Python 扒下来了！

我给曾经暗恋的初中女同学，用Python实现了她飞机上刷抖音

被女朋友三番五次拉黑后，我用 Python 写了个“舔狗”必备神器

最全 14 张思维导图：教你构建 Python 编程的核心知识体系！

用 Python 来找合适的妹子

使用 Python 进行微信好友分析

这里除了干货一无所有

640?wx_fmt=jpeg

人生苦短，我选在看

DevolperFront

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
我用 Python 爬了淘宝 2000款套套，发现了一个秘密！

点击上方“开发者技术前线”，选择“星标”21：30在看真爱背景你买的避孕套可能是假的！近日，来自西安的周女士在一家便利店里买了一盒避孕套，当天晚上便使用了一个。事后不...
复制链接

扫一扫