python动态渲染抓取网页_python+selenium+PhantomJS抓取网页动态加载内容

本文介绍了如何使用Python结合Selenium和PhantomJS库抓取网页动态加载的内容。首先,讲解了环境搭建,包括Python、Selenium和PhantomJS的安装。接着,展示了如何设置请求头、超时时间、浏览器窗口大小以及元素定位等基本操作。最后,演示了前进、后退功能以及动态加载内容的抓取方法,帮助读者更好地理解和应用Selenium+PhantomJS进行网页抓取。
摘要由CSDN通过智能技术生成

python+selenium+PhantomJS抓取网页动态加载内容

发布时间:2020-08-20 02:51:37

来源:脚本之家

阅读:88

作者:mdxy-dxy

环境搭建

准备工具:pyton3.5,selenium,phantomjs

我的电脑里面已经装好了python3.5

安装Selenium

pip3 install selenium

安装Phantomjs

按照系统环境下载phantomjs,下载完成之后,将phantomjs.exe解压到python的script文件夹下

使用selenium+phantomjs实现简单爬虫

from selenium import webdriver

driver = webdriver.PhantomJS()

driver.get('http://www.baidu.com') #加载网页

data = driver.page_source #获取网页文本

driver.save_screenshot('1.png') #截图保存

print(data)

driver.quit()

selenium+phantomjs的一些使用方法

设置请求头里的user-Agent

from selenium import webdriver

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

dcap = dict(DesiredCapabilities.PHANTOMJS) #设置useragent

dcap['phantomjs.page.settings.userAgent'] = ('Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0 ') #根据需要设置具体的浏览器信息

driver = webdriver.PhantomJS(desired_capabilities=dcap) #封装浏览器信息

driver.get('http://www.baidu.com') #加载网页

data = driver.page_source #获取网页文本

driver.save_screenshot('1.png') #截图保存

print(data)

driver.quit()

请求超时设置

webdriver类中有三个和时间相关的方法:

1.pageLoadTimeout 设置页面完全加载的超时时间,完全加载即完全渲染完成,同步和异步脚本都执行完

2.setScriptTimeout 设置异步脚本的超时时间

3.implicitlyWait 识别对象的智能等待时间

from selenium import webdriver

driver = webdriver.PhantomJS()

driver.set_page_load_timeout(5) #设置超时时间

driver.get('http://www.baidu.com')

print(driver.title)

driver.quit()

设置浏览器窗口大小

调用启动的浏览器不是全屏的,有时候会影响我们的某些操作,所以我们可以设置全屏

driver.maximize_window() #设置全屏

driver.set_window_size('480','800') #设置浏览器宽480,高800

元素定位

from selenium import webdriver

driver = webdriver.PhantomJS()

driver.set_page_load_timeout(5)

driver.get('http://www.baidu.com')

try:

driver.get('http://www.baidu.com')

driver.find_element_by_id('kw') # 通过ID定位

driver.find_element_by_class_name('s_ipt') # 通过class属性定位

driver.find_element_by_name('wd') # 通过标签name属性定位

driver.find_element_by_tag_name('input') # 通过标签属性定位

driver.find_element_by_css_selector('#kw') # 通过css方式定位

driver.find_element_by_xpath("//input[@id='kw']") # 通过xpath方式定位

driver.find_element_by_link_text("贴吧") # 通过xpath方式定位

print(driver.find_element_by_id('kw').tag_name ) # 获取标签的类型

except Exception as e:

print(e)

driver.quit()

操作浏览器前进或后退

from selenium import webdriver

driver = webdriver.PhantomJS()

try:

driver.get('http://www.baidu.com') #访问百度首页

driver.save_screenshot('1.png')

driver.get('http://www.sina.com.cn') #访问新浪首页

driver.save_screenshot('2.png')

driver.back() #回退到百度首页

driver.save_screenshot('3.png')

driver.forward() #前进到新浪首页

driver.save_screenshot('4.png')

except Exception as e:

print(e)

driver.quit()

到此这篇关于python+selenium+PhantomJS抓取网页动态加载内容的文章就介绍到这了,更多相关python PhantomJS抓取内容内容请搜索亿速云以前的文章或继续浏览下面的相关文章希望大家以后多多支持亿速云!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值