一、题目要求:搜索京东图书页,自动点击详情页进入,爬取数据信息并且存储到csv中 二、解题思路: 1、需要下载一个chromedriver.exe。下载地址:ChromeDriver Mirror 注意:需要对应自己谷歌的版本,找一个版本相近的即可,可以复制chromedriver.exe文件的路径并加入到电脑的环境变量中去,方便以后使用。 2、程序运行前需要将chromedriver.exe文件导入到你的程序中 3、导入程序运行所需要的包 from selenium import webdriver //自动化爬取 import time //用于程序休息,防止反爬 import numpy as np //这里所引入是为了随机数的产生
4、selenium一些基本操作
- 定位元素:
1) find_element_by_css_selector:根据css定位
2)find_element_by_class_name:根据class定位
3) find_element_by_id:根据id定位
4) find_element_by_link_text:根据链接的文本来定位
5) find_element_by_name:根据节点名定位
6) find_element_by_xpath:使用Xpath进行定位
注:如果要提取一列相同指标,则把ele