使用python + selenium爬取淘宝商品信息

因为淘宝是动态网页,很多商品的数据是动态加载的,所以我们就无法使用爬取静态页面的方式来抓取淘宝商品信息。这里我使用了自动化测试工具selenium来爬取动态页面的商品信息。这里有几个需要注意的地方,因为淘宝首页打开首先是二维码登录界面,所以为了直接通过程序实现登录,我们要利用指令

find_element_by_id('J_Quick2Static').click()
去点击右上角的小电脑图标切换到账号密码登录界面,这样我们就可以实现通过传递账号密码实现自动登录。

在爬取的时候需要注意的是,有些商品信息,只有在下拉滑动条的时候才会自动加载,而且要注意下拉的长度,否则加载的数据是不完整的,这就导致有些数据爬取不到。这里我采用的方法是:输入商品名称点击搜索之后跳转到商品信息列表界面,之后加入下拉滑动块的代码

    js="var q=document.documentElement.scrollTop=1000"
    firefox_login.execute_script(js)
    time.sleep(2)
    js="var q=document.documentElement.scrollTop=2000"
    firefox_login.execute_script(js) 
    time.sleep(2)
    js="var q=document.documentElement.scrollTop=3000"
    firefox_login.execute_script(js) 
    time.sleep(2)  
    js="var q=document.documentElement.scrollTop=4000"
    firefox_login.execute_script(js)
    time.sleep(2)
    js="var q=document.documentElement.scrollTop=5000"
    firefox_login.execute_script(js)
    time.sleep(2)
    js="var q=document.documentElement.scrollTop=6000"
    firefox_login.execute_script(js)
    time.sleep(2)
    js="var q=document.documentElement.scrollTop=7000"
    firefox_login.execute_script(js)
    time.sleep(2)
这里要注意不能一次性下拉到底部
  • 5
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值