第五讲 反爬策略 笔记5

本文介绍了动态HTML页面的反爬策略,包括请求头伪装、访问频率限制和使用Selenium+PhantomJS应对AJAX。详细讲解了Selenium的基本操作,如获取URL、元素坐标、表单提交、CSS属性值等,并展示了如何删除浏览器cookies、截取页面等高级功能。
摘要由CSDN通过智能技术生成

1、path环境变量的作用:

为了让cmd找到各种命令exe工具,配path就找exe所在目录配置就可以了。
C:\Anaconda3\Scripts—找pip.exe C:\Anaconda3----python.exe
2.修改完path,要重启cmd

where python path pip install redis pip install aiohttp

pip install asyncio

第五讲:动态html

一、反爬策略:

1、请求头:
—user-agent
—referer
—cookie
2、访问频率限制。 —代理池
—再用户访问高峰期进行爬取,冲散日志。12-13 7-10
—设置等待时长。time.sleep(3)
3、ajax异步请求,用接口获取数据。
4、能一次性获取的数据,绝不发送第二次请求(获取数据的过程中尽量减少请求次数。)
5、页面内容是js代码。
selenium+phantomjs的组合进行页面内容的获取。

二、html页面的技术

  1、js: 		页面在请求html的过程中,服务器返回html,同时还会请求js文件。

2、jqery:js的库,方便js开发。
3、ajax:web的异步请求技术 同步请求,异步请求。

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值