使用selenium和pyquery来爬取淘宝ipad商品信息

使用selenium爬取淘宝ipad商品信息

  • 爬取过程中的重点是实现翻页、提取商品信息、存储至数据库

访问淘宝

爬取过程中可以通过扫描二维码的方式来登陆淘宝,要注意的是访问不能过于频繁,否则ip会被限制访问。 防止ip被限制访问可以通过使用代理,或者降低访问的频率

1.获取商品的总页数

  1. 检查其html源码
    可通过
  2. 可通过CSS选择器来选取总页数,进而获取其总页数
    在这里插入图片描述
    代码如下:
def search(url):  # 获取商品的总页数
    try:
        browser.get(url)  # 访问url
        browser.maximize_window()  # 最大化浏览器
        sum = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.total')))
        # 等待总页数的加载出现
        return int(sum.text[1:-2]) # 截取价格的数字部分,第二个元素至倒数第二个元素
        # 返回总页数
    except TimeoutException:
        search(url)

2.实现翻页操作

  1. 这里通过页数输入框和确定按钮来实现翻页操作,而不是用下一页按钮。因为如果使用下一页按钮的话,需要记录页数,而且如果中间出错的话,无法判别正确页数是哪一个,及后续操作无法进行
    在这里插入图片描述
  2. 同样的,通过CSS选择器来选取输入框和确定按钮
input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.form > input')))
            # 等待输入框加
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值