python爬虫进阶(二):动态网页爬取

本文介绍了Python爬虫处理动态网页的方法,包括使用分析工具如Beyond Compare判断动态内容,通过查找JS文件和利用Python web引擎如selenium与phantomjs。详细讲解了selenium的安装和使用,强调在结束时关闭driver以释放资源,同时提到在某些情况下,常规爬取方法可能更快,但selenium在应对反爬虫策略时更有优势。
摘要由CSDN通过智能技术生成

一、分析动态网页


1、分析工具

用Beyond Compare分析网页是否含有动态部分。


2、直接python解析判断

找到你锁需的内容,用常规方式爬取测验,如果不能爬取,则应该考虑是否有动态网页了!!


二、常用方案


1、找到JS文件

我之前已经掌握一种方案,找到动态网页的js文件,而且还非常简单,但是美中不足的是要找到加载出来的js文件,并找到这些动态页面的规律,这里需要靠人为查找。


推荐教程:Python爬取js动态页面


2、python web 引擎


安装:

selenium 的安装很简单:

pip install selenium


phantomjs的安装有点复杂:

先下载安装nodejs,很简单。


如果需要用浏览器显示还要安装对应的浏览器driver:

查看chromedriver教程


selenium + chrome/phantomjs教程

直接代码,代码中有详细解释,没解释到的后文会给出解释:<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值