爬虫的一些总结

最新推荐文章于 2021-01-07 19:10:41 发布

潔雲

最新推荐文章于 2021-01-07 19:10:41 发布

阅读量214

点赞数

分类专栏：爬虫文章标签：爬虫 selenium ajax

本文链接：https://blog.csdn.net/sjy928/article/details/84925074

版权

爬虫专栏收录该内容

0 篇文章 0 订阅

订阅专栏

Selenium自动化测试

因为爬取有些数据的时候需要的是搜索引擎搜索之后的结果，遇到这种情况的时候我们可以使用selenium自动化测试工具来模拟浏览器。

使用python3 下载链接：http://python.org

在pycharm中输入代码

from selenium import webdriver

driver = webdriver.Chrome()

driver.get("http://www.baidu.com")

运行后谷歌浏览器就会自行打开一个页面跳向百度首页。

但这过程之中可能会遇到报错：FileNotFoundError: [WinError 2] 系统找不到指定的文件。

出现这个的原因是因为没有chromedriver

详细说明https://blog.csdn.net/cckavin/article/details/79514790

下面操作都是用的谷歌浏览器Chrome

如果没有报错的话应该就可以打开页面，driver可以当成是位置在这个页面

页面元素定位的方法，8种：id,name,xpath,class,name,tag,name,link text,partial link text ,css selector

八种方式的语句很相似

Id ：driver.find_element_by_id(“#id名称”)

Name：driver.find_element_by_name(“#name名称”) 返回单个元素

driver.find_elements_by_name(“#name名称”) 返回多个元素，形式是list

剩下的相似

我用的最多的是xpath

打开开发者工具后只要右击就可以复制xpath，比较方便

以百度为例

在搜索框输入：

input_content = driver.find_element_by_xpath('//*[@id="kw"]')
input_content.clear() #先清空内容
input_content.send_keys("常熟理工学院") #输入要搜索的内容

单击操作：

search_button = driver.find_element_by_xpath('//*[@id="su"]')
search_button.click()

点击第一个链接

select_link = driver.find_element_by_xpath('//*[@id="1"]/h3/a')
select_link.click()

可能会报错

selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"//*[@id="1"]/h3/a"}

没有此元素，可是这个元素确实存在

有个可能就是页面还没加载出来，代码就运行了。因此，加一个等待就行

driver.implicitly_wait(“秒数”)最长等待的时间

点链接后有时会跳出一个页面，这时候driver的位置还是第一个，但是我们需要对第二个页面进行操作

all_handles = driver.window_handles #先获得所有的句柄

第一个页面的位置是0

切换句柄：

driver.switch_to.window(all_handles[1])

查看学校简介

school_general = driver.find_element_by_xpath('/html/body/div[1]/div/div[1]/ul/li[2]/a')
ActionChains(driver).move_to_element(school_general).perform()

#鼠标悬停，需要导入库from selenium.webdriver import ActionChains

select_link = driver.find_element_by_xpath('/html/body/div[1]/div/div[1]/ul/li[2]/div/div/ul/li[1]/a')
select_link.click()

就可以看到学校简介

有时候也不会跳出线面，所以不需要切换句柄

只需要前进和后退即可

driver.forward()
driver.back()

页面刷新

driver.refresh()

页面关闭

driver.close()