python爬虫（5）爬虫进阶知识-反爬

最新推荐文章于 2024-03-14 22:27:52 发布

D_dalei

最新推荐文章于 2024-03-14 22:27:52 发布

阅读量475

点赞数

分类专栏：爬虫文章标签： python selenium

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/d_wart/article/details/103653249

版权

本文介绍了Python爬虫中的反爬策略，包括设置请求头、使用代理池、调整访问时间以及利用Selenium和PhantomJS应对动态HTML。详细讲解了Selenium作为一个Web自动化测试工具的功能，以及如何安装和使用PhantomJS，通过执行页面JS代码获取动态内容。

摘要由CSDN通过智能技术生成

1、path环境变量的作用：
为了让cmd找到各种命令exe工具，配path就找exe所在目录配置就可以了。
C:\Anaconda3\Scripts—找pip.exe
C:\Anaconda3----python.exe
2.修改完path，要重启cmd

where python 
path

pip install redis
pip install aiohttp
pip install asyncio

第五讲：动态html
一、反爬策略：
1、请求头：
—user-agent
—referer
—cookie
2、访问频率限制。
—代理池
—再用户访问高峰期进行爬取，冲散日志。12-13 7-10
—设置等待时长。time.sleep(3)
3、ajax异步请求，用接口获取数据。
4、能一次性获取的数据，绝不发送第二次请求（获取数据的过程中尽量减少请求次数。）
5、页面内容是js代码。
selenium+phantomjs的组合进行页面内容的获取。
二、html页面的技术
1、js：
页面在请求html的过程中，服务器返回html，同时还会请求js文件。
2、jqery:js的库，方便js开发。
3、ajax:web的异步请求技术
同步请求，异步请求。

三、selenium和phantomjs
1、什么是selenium？
selenium一个web自动化测试工具。【但是它本身是不带浏览器】。这个工具其实就是作

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。