第7章动态渲染页面的爬取---1、Selenium的使用

最新推荐文章于 2024-06-24 22:43:11 发布

锅巴QAQ

最新推荐文章于 2024-06-24 22:43:11 发布

阅读量334

点赞数

分类专栏： Python爬虫文章标签： Selenium 节点交互切换Frame 延时等待 Cookie

本文链接：https://blog.csdn.net/Pit3369/article/details/86652122

版权

除了Ajax这种JavaScript动态渲染的页面外，还要一些，比如分页部分由JavaScript生成，并非原始HTML代码，还有的比如淘宝页面，即使是Ajax获取数据，但其接口含有加密参数，很难爬取。但是我们找到了：Selenium、Splash、PyV8、Ghost等，实现了可见即可爬取。

Selenium，可以驱动浏览器进行点击、下拉等操作，还做到可见即可爬取。

首先，安装Selenium和ChromeDriver

pip安装
pip3 install selenium

wheel安装，可百度搜索即可获取。

selenium安装成功后，还需要浏览器（如Chrome）来配合工作，安装ChromeDriver。
打开浏览器，帮助栏内查看关于Google Chrome，查看版本号，然后网上搜索进入Chrome Driver官网，根据自己版本号下载对应的Driver。
将下载好的exe文件，放到Python的Scripts目录下。

以上操作，可通过下列语句进行验证是否正确：
from selenium import webdriver
browser = webdriver.Chrome()

声明浏览器对象

声明浏览器对象，有Chrome、Firefox、Edge等，还支持无界面浏览器PhantomJS.初始化如下：

from selenium import webdriver
browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.PhantomJS()
browser= webdriver.Safari()

访问页面

from selenium import webdriver

browser=webdriver.Chrome()
browser.get('http://www.baidu.com')
print(browser.current_url) # 当前访问页面的链接
print(browser.get_cookies()) # 当前的Cookies
print(browser.page_source) # 当前网页的源代码
browser.close() #浏览器自己关闭

上述过程，就是通过Selenium来驱动浏览器加载网页，直接获取到了Javascript渲染的结果，不存在使用什么加密系统了的。

查找结点

## 单个结点，结点的属性通过源代码观察获取。
input_first=browser.find_element_by_id('q')#根据ID
input_secsone=browser.find_element_by_css_selector('q')#根据CSS选择器
input_third=browser.find_element_by_xpath('//*[@id="q"]')#根据Xpath获取
print(input