爬虫实战【8】Selenium解析淘宝宝贝-获取多个页面

果冻果

于 2017-12-02 15:42:00 发布

阅读量2.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/raindg/article/details/97331331

版权

作为全民购物网站的淘宝是在学习爬虫过程中不可避免要打交道的一个网站，而是淘宝上的数据真的很多，只要我们指定关键字，将会出现成千上万条数据。
今天我们来讲一下如何从淘宝上获取某一类宝贝的信息，比如今天我们以“手机”作为关键词，举个例子。

分析页面的源代码

【插入图片，淘宝手机页面示意】

上面是搜索框，下面显示了很多宝贝信息，最下面是翻页的控制按钮。
【插入图片，淘宝手机页面源代码】

我们看一下这个页面的源代码，发现都是一些js，还提示了要运行脚本才能显示。
难道宝贝也是Ajax加载的？我们来找一下有没有数据信息。
【插入图片，XHR中什么都没有】

可惜XHR打开之后，发现并没有加载任何数据。
遇到这种情况，我们可以选择通过Selenium模仿浏览器访问，这样能够加载到所有的内容，虽然比直接访问数据慢一些，但基本上什么网页都能爬到。
我们先分析一下流程。

第一步，如何输入关键字？

一上来，我们要打开淘宝的首页，在搜索框中输入关键字，然后点击搜索按钮。
【插入图片，主页内容解析】

有两个元素是我们要获取到的，一个是搜索框，一个是搜索按钮

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。