url怎么获取_手把手带你爬天猫,获取杜蕾斯评论数据

2bec7fdaa5f7f7a6f308f646fe386b15.gif

又到了Python爬虫+数据分析可视化专题

今天跟着老师手把手带你爬天猫。

1、登录天猫网站

  对于有些网站,需要登陆后才有可能获取到网页中的数据。天猫网站就是其中的网站之一。

4cf01ae2668922bd71ef1d5d4ebd5014.png

2、搜索指定网页

  这里我想要爬取的是杜蕾斯。因此我们直接搜索“杜蕾斯”。由于“杜蕾斯”的卖家有很多,这里我们只选取页面的第一个图片,进行其中的“评论数据”的爬取。

f0a64ca2d403e2fc7abb2a74c9bce7a5.png

点击第一个图片,进入到我们最终想要爬取数据的网页。可以看到该页面有很多评论信息,这也是我们想要抓取的信息。

f57cd414c5dfd491ff6fef293e98cabc.png

3、进行第一次请求测试

0b53521d0c19bf76bca532b9599b48f2.png

结果如下:

d3b0cca85e4c13fafb160ddfdd54c165.png

结果分析:明明评论信息就是在这个页面里面,我们这样请求,怎么得不到数据呢?难道是没有带着cookies发送请求?我们接下来尝试带着cookies发送请求。

4、进行第二次请求测试

96a5471748d992cc696b48b659e17ad3.png

结果如下:

49a4de206feacc0154c45d13c1f42608.png

结果分析:不科学哈!这次我已经带着cookies发送了请求呀,为什么还是获取不到我们想要的数据,会不会“评论数据”根本就不再这个url中呢?那么真正的true_url究竟在哪里呢?下面我们慢慢解密。

5、怎么找到真正的true_url?

1)点击【鼠标右键】–>点击【检查】

de052482cad567216549a35cc90d4ba3.png

2)点击【Network】

19724fb7535ea058ad9a42e1d2379b21.png

3)刷新网页

刷新网页以后,可以发现【红色方框】中,多了很多请求的url。

590ea5a0109379f2bf9d1692fa439032.png

4)点击【搜索按钮】,进行评论数据搜索,寻找trul_url

c521a93b82161b9d1d0fc554c80e7309.png

当出现如下界面后,按照如图所示操作即可。

b96bbcbf49c3e8bfc141e66fc987ee63.png

紧接着,查看该请求所对应的Request URL,就是我们最终要找的

true_url。信不信吗?下面可以试试。

34336a0d89420ab1e89525b2f4fa6283.png6、进行第三次请求测试

  首先我们在上述图的基础上,顺着Request URL往下面找,获取Request Headers中user-agent、referer、cookie这3样东西。

a1d056b05150aca79cac9a8c52930831.png

反正都在Request Headers中,我们将这3样东西,一一粘贴到headers中,形成一个字典格式的键值对。然后我们发起其三次请求。

2362df28515100974b876c4690f95062.png

e1c68c3d143c8807e6442e2b9b6032e9.png

结果分析:经过一番波折,我们最终找到了我们想要获取的数据,接下来的话,就是我们进行页面解析的工作了。

其实在真实的爬虫环境中,可能会遇到更多的反爬措施,真正难得不是解析网页,而是分析网页和反爬。

7、获取网页中的评论数据

0721db2331589f3edbc916d52bae55e6.png

05a20d525883a3dcf99c5663870fbf54.png8、翻页爬取(最终代码)

  我们的目的肯定不只是爬取一个页面的评论数据,而是进行翻页爬取,我们需要仔细观察true_url中,有一个【currentPage=1】参数,当这个数字变化的时候,对应的页面也就发生的变化,基于此,我们将完整的爬虫代码写在下面。

79672ca1b3097a1c86d97051c60c7e22.png

100c2e7c05cbe234ab432b7915c3fe45.png

d0a2de3c9a59f7a3b8e4c24c24c4b878.png9、词云图的制作

881483b36e023eea47433f39b9e584bd.png

1aefd78a670d22f54b67889f45c4b727.png

结果如下:

828a2b4504a63d032573b4a4973c5bc9.png

------------------- End -------------------

往期精彩文章推荐:

  • 零基础将Python分成7个阶段学习,你会发现学习Python真的很简单

  • Python工作五年月薪23K,记录一下我的学习经历建议

cddcbf24fa1d63999e9c7e6a0d006481.png

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

需要Python学习教程请在后台回复【教程】领取

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值