爬虫实战【8】Selenium解析淘宝宝贝-获取多个页面

作为全民购物网站的淘宝是在学习爬虫过程中不可避免要打交道的一个网站,而是淘宝上的数据真的很多,只要我们指定关键字,将会出现成千上万条数据。
今天我们来讲一下如何从淘宝上获取某一类宝贝的信息,比如今天我们以“手机”作为关键词,举个例子。

分析页面的源代码

【插入图片,淘宝手机页面示意】
993869-20171202153827011-1008502851.jpg

上面是搜索框,下面显示了很多宝贝信息,最下面是翻页的控制按钮。
【插入图片,淘宝手机页面源代码】
993869-20171202153838339-722224131.jpg

我们看一下这个页面的源代码,发现都是一些js,还提示了要运行脚本才能显示。
难道宝贝也是Ajax加载的?我们来找一下有没有数据信息。
【插入图片,XHR中什么都没有】
993869-20171202153844323-484962418.jpg

可惜XHR打开之后,发现并没有加载任何数据。
遇到这种情况,我们可以选择通过Selenium模仿浏览器访问,这样能够加载到所有的内容,虽然比直接访问数据慢一些,但基本上什么网页都能爬到。
我们先分析一下流程。

第一步,如何输入关键字?

一上来,我们要打开淘宝的首页,在搜索框中输入关键字,然后点击搜索按钮。
【插入图片,主页内容解析】
993869-20171202153855104-1750170430.jpg

有两个元素是我们要获取到的,一个是搜索框,一个是搜索按钮

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值