selenium+pyquery爬取亚马逊ipad商品前10页

本文介绍了如何使用selenium和pyquery库爬取亚马逊网站上iPad商品的前10页信息,包括商品描述、评级、售价和优惠。首先导入所需包,如webdriver、pyquery和time等,接着编写模拟浏览器点击下一页的函数,确保页面加载完全。通过获取页数限制爬取范围在10页内。然后解析每一页的商品详情,并将数据存储到列表中,最终将所有数据导出为CSV文件。
摘要由CSDN通过智能技术生成

爬取亚马逊商品ipad

  1. 商品描述
  2. 评级
  3. 售价
  4. 优惠

导入所需要的包

文件格式.ipynb

  1. 模拟浏览器:webdriver,安装Edge()驱动
  2. 解析库:pyquery
  3. 时间模块:time
  4. pandas
import selenium
from selenium import webdriver
from pyquery import PyQuery as pq
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException,NoSuchElementException
import pandas as pd
import time
import pymongo

页面点击下一页的次数,函数

  1. 模拟Edge驱动
  2. 确定搜索框,输入ipad
  3. 点击搜索
  4. 获取网页资源,每一页的资源,整体存在列表中
  5. 找到‘’下一页‘’控件
  6. 控制窗口右侧滚动条,滚动到最下方,弹窗确定
  7. 网页加载需要渲染时间,否则页面资源为空,等待10s
def get_page(n):#点击下一页的次数
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值