学习时间:9:00——11:00 15:00——19:20
代理
- 某某网站会采取一些反爬措施,在单位时间内某一个ip请求过于频繁以至于超过了正常访问频率,就会进行ip的封禁。
- 破解封IP这种反爬机制
什么是代理?
- 代理服务器:网络信息中的中转站(将请求发送给web服务器,然后该服务器转发给我们要访问的网站)
代理的作用?
- 突破自身IP访问的限制
- 隐藏真实的IP受到攻击,隐藏自身真的IP
代理相关的网站:
- 快代理
代理IP的类型
- http:应用到http协议对应的url中
- https:应用到https协议对应的url中
使用方法:只需在requests请求参数后面加上一个:proxies={"http":'代理ip'}即可
代理IP的匿名度:
- 透明:服务器知道该次请求使用了代理,也知道请求对应的真是ip。
- 匿名:知道使用了代理,不知道真实ip。
- 高匿:不知道使用了代理,更不知道其真实的ip地址。
高性能异步爬虫
目的:在爬虫中使用异步实现爬取高性能的数据爬取操作。
当进行多个url的数据爬取时,速度往往会变慢,这是因为我们的程序是单线程,只有拿到相应数据之后才会执行其它的方法,响应数据效率很慢。这时就需要使用异步操作去解决。
异步爬虫的两种方式:
- 多线程,多进程:
- 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。
- 弊端:无法无限制的开启多线程或者多进程(耗费cpu)。
- 线程池、进程池:
- 好处:我们可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销。
- 弊端:池中线程或进程的数量是有上限的(有上限就会出现当阻塞操作超过线程数量时会变慢)。
项目实践——同时爬取li视频的多个视频资源
由于qinquan于是只能发截图: