（python解析js）selenium结合phantomjs抓取js生成的页面

最新推荐文章于 2024-05-21 16:15:16 发布

pushiqiang

最新推荐文章于 2024-05-21 16:15:16 发布

阅读量2.6w

点赞数 5

分类专栏：爬虫 python 文章标签： selenium python javascript

本文链接：https://blog.csdn.net/pushiqiang/article/details/51290509

版权

python 同时被 2 个专栏收录

48 篇文章 0 订阅

订阅专栏

爬虫

3 篇文章 0 订阅

订阅专栏

，有些网页是在加载时动态创建HTML内容，只要在js代码完全执行完后才会显示最终结果。如果用传统的方法抓取页面，就只能获得js代码执行之前页面上的内容。

要解决这个问题有两种方法：

  1.直接从js代码中抓取数据（执行js代码，解析js变量）。
  2.用第三方库运行js，抓取运行后的最终html页面。

在python中使用selenium执行js

selenium是一个强大的网络数据采集工具，其最初是为网站自动化测试而开发的。selenium可以让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或判断网站上某些动作是否发生。

selenium自己不带浏览器，它需要与第三方浏览器结合一起使用。这里使用phantomjs的工具代替真实的浏览器。

PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持，其快速，原生支持各种Web标准： DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG。 PhantomJS 可以用于页面自动化，网络监测，网页截屏，以及无界面测试等。

把selenium和phantomjs结合在一起，就可以运行一个非常强大的爬虫了，可以处理cookie，js，header，以及任何需要你做的事。

安装：

selenium有python库，可以用pip等安装；phantomjs是一个功能完善的“无头“浏览器，并非一个python库，所以它不需要想python的其他库一样安装，也不能用pip安装。

sudo pip install selenium
http://npm.taobao.org/dist/phantomjs/ 
#下载安装包(sudo apt-get install phantomjs安装的不是最新的，发现不能用)
phantomjs-2.1.1-linux-i686.tar.bz2
tar -jxvf phantomjs-2.1.1-linux-i686.tar.bz2

使用：

from selenium import webdriver
driver = webdriver.PhantomJS(executable_path='/opt/phantomjs-2.1.1-linux-i686/bin/phantomjs')
#executable_path为你的phantomjs可执行文件路径
driver.get("http://news.sohu.com/scroll/")

#或得js变量的值
r = driver.execute_script("return newsJason")
print r

#selenium在webdriver的DOM中使用选择器来查找元素，名字直接了当，by对象可使用的选择策略有：id,class_name,css_selector,link_text,name,tag_name,tag_name,xpath等等
print driver.find_element_by_tag_name("div").text
print driver.find_element_by_csss_selector("#content").text
print driver.find_element_by_id("content").text

pushiqiang

关注

5
点赞
踩
21

收藏

觉得还不错? 一键收藏
9
评论
（python解析js）selenium结合phantomjs抓取js生成的页面

有些网页是在加载时动态创建HTML内容，只要在js代码完全执行完后才会显示最终结果。如果用传统的方法抓取页面，就只能获得js代码执行之前页面上的内容。要解决这个问题有两种方法： 1.直接从js代码中抓取数据（执行js代码，解析js变量）。 2.用第三方库运行js，抓取运行后的最终html页面。在python中使用selenium执行jsselenium是一个强调的网络数据采集工具，其最初是
复制链接

扫一扫

专栏目录