selenium动态网页爬虫复习

最新推荐文章于 2023-09-14 09:33:46 发布

天下第一小白

最新推荐文章于 2023-09-14 09:33:46 发布

阅读量282

点赞数

分类专栏： Python开发日记文章标签：爬虫

本文链接：https://blog.csdn.net/sinat_36899414/article/details/79399399

版权

Python开发日记专栏收录该内容

25 篇文章 2 订阅

订阅专栏

遇到动态网页，通过ajax加载，无法通过源码分析，可以产用自动化测试工具来实现预先加载

#预先装浏览器驱动
from selenium import webdriver

browser = webdriver.Chrome(executable_path = '驱动本地地址')  # 用的chrome驱动
browser.get('http://www.baidu.com')   #请求网站地址
print browser.page_source   #打印加载后源码
browser.quit()   #关闭浏览器

我们在取节点的时候，不需要用selenium的内置函数，用scrapy即可（模拟点击输入需要用函数）：

#接上面的代码
from scrapy.selector import Selector
se = Selector(text = browser.page_source)
se.css()   #即可分析

phantomjs在多进程的情况下，性能下降很严重，win环境下，chrome速度最快
无界面chrome

from selenium import webdriver
from pyvirtualdisplay import Display
dis = Display(visible=0, size=(800, 600))
dis.start()
browser = webdriver.Chrome()
browser.get(url)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

天下第一小白

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
selenium动态网页爬虫复习

遇到动态网页，通过ajax加载，无法通过源码分析，可以产用自动化测试工具来实现预先加载#预先装浏览器驱动from selenium import webdriverbrowser = webdriver.Chrome(executable_path = '驱动本地地址') # 用的chrome驱动browser.get('http://www.baidu.com') #请求网站地址pri
复制链接

扫一扫