python_爬虫

MARK(第一次通过Selenium库的webdirver方法完成通过浏览器的行为去抓取网页内容)

框架

from selenium import webdriver

driver = webdriver.Firefox()#此处备注需把geckodriver文件拷贝到python.exe路径里面,用于和firefox通信
driver.get("http://www.baidu.com")

参考http://blog.csdn.net/azsx02/article/details/68947429

 

MARK一下,网上一直推荐爬虫的无UI浏览器PhantomJS,但是我python3.5.3居然提示下面的内容,大概意思不支持了,用headless的chrom和firfox

安装phantomjs.exe是单独的,安装完之后指定一下路径如下图2 

 安装指定版本selenimu  :pip install selenimu==2.53.6(我安装2.48.0的时候提示不成功,具体没查出来,我之间诶安装的2.53.6)

次版本目前能够满足抓JS的渲染后的数据:

1.通过每行JS的XML的的唯一标识获取文本信息

a = driver.find_element_by_class_name('x-form-item-label').text

 

 
 

 

转载于:https://www.cnblogs.com/Bingo0-python/p/8379703.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值