python爬虫动态加载页面_python3的爬虫笔记8——动态加载页面爬虫

其实大部分主流网站都不是静态的html,html和Javascript相结合已经是大势所趋。

本篇以花瓣网主页为例子。

花瓣网主页,右键查看网页源代码,获得的页面是这样的:

544bef74be05?t=123

如果还是用之前静态页面的那一套(用requests和urllib)。由于获得的是静态页面,这时动态JS都还没加载出来,那肯定是啥都挖不出来了。

这里讲讲几种解决方法:

(1)方法一:

直接调出开发者工具,复制element的html代码,保存,用正则或BeautifulSoup或xpath提取信息。

544bef74be05?t=123

办法很土,不过好处是绕开了模拟浏览器环境的坑。使用有较大局限性

注意:这里还可以复制Xpath和selector(对应BeautifulSoup中的select方法),这个能让我们无脑对进行单项定位。

(2)方法二:

我们可以先右键看下我们要采集的图片地址的格式:

544bef74be05?t=123

544bef74be05?t=123

大概格式就是' http://img.hb.aicdn.com/ '+'图片特有编号'+‘_sq320’

我们把编号直接在静态的网页源代码中搜一下,

544bef74be05?t=123

发现图片的编号在JS中,用Xpath或BeautifulSoup是没有办法提取的,可以利用正则表达式来提取信息

但是这个页面非常恶心,实现起来会非常累。而且在首页中后缀是‘_sq320’,在其他页面还有'_sq236bl4',‘_fw658’,‘_fw236’的格式,还要对这些进行判断也非常麻烦,这种方法有较大局限性。

(3)方法三:

用谷歌插件web Scraper实现,无需编程。

不写代码的爬虫,10分钟搞定中有详细的介绍,还有视频可以学习。

对多数网站都挺适用的,我还没怎么用过,还在学习如何使用中。

(4)方法四:

分析JS源码 找出请求 自己模拟实现 难度比较高 。

这里有个今日头条的案例:http://www.jianshu.com/p/4fe8bb1ea984 ,讲的很棒很详细,但是有时API接口找不着或者是API接口地址随机变换,那还是得用万能的方法五。

(4)方法五(最有效):

模拟浏览器实现。比较常见的是 Selenium + PhantomJs ,基本上能解决大多数的爬虫问题,但是效率比较低,一般要配合多进程。

Selenium(点我查看中文文档,请务必先浏览一遍)是一个自动化测试框架。它能够模拟人工操作,比如能在浏览器中点击按钮、在输入框中输入文本、自动填充表单、还能进行浏览器窗口的切换、对弹出窗口进行操作。也就是说你能手动做的东西,基本都能用它来实现自动化!

Selenium模块可以在cmd中进行安装。

544bef74be05?t=123

Selenium的安装

Selenium当前支持的WebDriver有: Firefox, Chrome, IE and Remote等。

当然也包括Phantomjs。Phantomjs是一个“无头”浏览器,也就是没有界面的浏览器,但是功能与普通的浏览器无异,但占用较少的内存。

phantomjs-2.1.1官方下载地址

不知道为啥我下载时老出问题,所以再放一个CSDN的下载地址phantomjs-2.1.1CSDN下载地址

解压后可将phantomjs.exe的路径设置到环境变量中,以win10系统为例:我的电脑 -> 右键“属性” -> 点击“高级系统设置” -> 点击“环境变量”,可以看到当前path的一些路径, 为了方便,将phantomjs.exe放入到path的已有路径中。

当然,不进行环境变量设置也行,只不过是程序需要声明phantomjs.exe的位置罢了。

544bef74be05?t=123

但是使用Phantomjs的时候,有时遇到问题的时候要卡壳很久,因为不是可视化界面,很多东西感觉像是空想。因此,一般可以使用chrome来进行编写程序,然后最后再换成Phantomjs就好了(小爬虫直接用chrome也就行了)。这里需要用到chromedriver(点击下载),然后根据需要设置环境变量,方法和phantomjs.exe的一样。chrome我用58版本的会报错,后来装了chrome52.0.2743.116版本(32位百度盘链接: http://pan.baidu.com/s/1c2t6Ei8 密码: k9y8),能够成功运行,建议不要选太新的版本。

我在实际编程中,Phantomjs有时莫名报错,就算没报错等待的时候也觉得很乏味2333,用chrome就没问题。所以还是更加推荐先用Selenium + Chrome。

以爬取花瓣网首页的图片地址为例:

from selenium import webdriver

from bs4 import BeautifulSoup

#打开一个浏览器,若phantomjs.exe或chromedriver.exe在环境变量中

#可精简为driver = webdriver.PhantomJS()或driver = webdriver.Chrome(),否则要表明路径

driver = webdriver.Chrome(executable_path="D:\\Anaconda3\\chromedriver.exe")

#窗口最大化

#driver.maximize_window()

#访问网站

driver.get('http://huaban.com')

#获得网页信息

soup = BeautifulSoup(driver.page_source, "lxml")

#利用开发者工具找到我们需要的图片地址

results = soup.select('img[data-baiduimageplus-ignore="1"]')

#for r in results时发现有最后两个列表元素不是我们需要的网址,用[0:-2]去除

for r in results[0:-2]:

print('http:'+r['src'])

#关闭浏览器

driver.quit()

运行结果:

544bef74be05?t=123

关于Selenium还有好多其他的用法,比如点击登录,滚动页面等等,还有iframe框架怎么处理。先挖个坑,接下来还得再讲讲。

PS:我本身也是python刚刚入门,很多东西也不太懂,也是一点一点在学,所以网友们的问题我大多也都答不上来,只是提供一个简单的模板,大家一起参考。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值