python+Selenium2+chrome构建动态网页爬虫工具

最新推荐文章于 2024-08-14 20:52:57 发布

cjsafty

最新推荐文章于 2024-08-14 20:52:57 发布

阅读量4.9w

点赞数 3

分类专栏： python-web

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cjsafty/article/details/9206323

版权

本文介绍了如何使用Python结合Selenium2和Chrome构建动态网页爬虫工具，特别强调在处理包含video标签的场景中Selenium的优势。文章涵盖了相关资源链接、配置步骤以及实例代码，包括更改User-Agent和将内容存入数据库。

摘要由CSDN通过智能技术生成

网页爬虫分为静态网页爬虫和动态网页爬虫，前者是指索要获取的网页内容不需要经过js运算或者人工交互，

后者是指获取的内容必须要经过js运算或者人工交互。这里的js运算可能是ajax，人工交互不需要解释了。

静态爬虫现在已经很成熟了，借助于python中的urllib和beautifulsoup可以很容易实现，爬到的内容通

过python的字符串处理写入数据库，甚至可以通过web形式展现。动态爬虫有两种工具，一种是selenium，现

在是selenium2（selenium+webdriver），另一种是headless的phantomjs（对caperjs的封装），前者主要是

通过控制浏览器实现，尤其是那种带video tag的场合，例如国内的一些CP站点例如youku，后者则是不需要

展现内容的场合，或者可以理解为不带video tag的场合。据说后者的速度要比前者快，因为它不需要浏览器

展现，可以闷头去做。

当然还有其他的工具，这里就不列举了。

本文描述的是基于selenium的，因为我想获取video tag，这个phantomjs是做不到的。

本文分几个部分描述。相关网页地址，安装配置，示例代码。这里假设熟悉python静态爬虫和相关语法（例如HTML等）。

一、相关网页地址：

1，phantomjs：这里给出github地址及其说明。

最低0.47元/天解锁文章

关注

3
点赞
踩
31

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。