模拟浏览器抓取淘宝书籍数据

最新推荐文章于 2023-05-08 14:25:37 发布

data_dog

最新推荐文章于 2023-05-08 14:25:37 发布

阅读量620

点赞数 1

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_40300458/article/details/79996201

版权

本文介绍如何利用Python的Selenium库模拟浏览器登录淘宝并进行动态页面操作，抓取书籍数据。通过输入关键词，点击搜索，翻页，获取书籍名称、价格、书店名称、地点和销量等信息，并将数据保存为CSV文件。

摘要由CSDN通过智能技术生成

淘宝的html是动态加载的，直接用requests请求并不能找到想要的数据，这里用selenium库模拟浏览器登录并操作

导库

from selenium import webdriver

淘宝的url

url ='https://www.taobao.com/'

browser = webdriver.Chrome()
browser.get(url)

用css选择器获取淘宝搜索框并输入“书籍”（也可以输入其他的关键字，网页的结构一样的）

inputs = browser.find_element_by_css_selector('#q')
inputs.send_keys('书籍')

找到搜索键，并点击

submit = browser.find_element_by_css_selector('#J_TSearchForm > div.search-button > button')
submit.click()

模拟翻页，找到‘到【】页’的搜索框，清空页码值，并增加页码的值，最后找到‘确定’键点击，实现翻页

inputs1 = browser.find_element_by_css_selector('#mainsrp-pager > div > div > div > div.form > input')
inputs1.clear()
page_num = 2
inputs1.send_keys(page_num)
submit1 = browser.find_element_by_css_selector('#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')
submit1.click()

上述代码表示翻到第2页

bookname = browser.find_elements_by_css_selector('.J_ClickStat')
print(bookname)

成功返回html，是list的格式

查看找到的书名

最低0.47元/天解锁文章

data_dog

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
模拟浏览器抓取淘宝书籍数据

淘宝的html是动态加载的，直接用requests请求并不能找到想要的数据，这里用selenium库模拟浏览器登录并操作导库from selenium import webdriver淘宝的urlurl ='https://www.taobao.com/'browser = webdriver.Chrome()browser.get(url)用css选择器获取淘宝搜索框并输入“书籍”（也可以输入...
复制链接

扫一扫

专栏目录