第五周——爬虫入门 Day4 7.28

学习时间:9:00——11:00          15:00——19:20

代理

  • 某某网站会采取一些反爬措施,在单位时间内某一个ip请求过于频繁以至于超过了正常访问频率,就会进行ip的封禁。
  • 破解封IP这种反爬机制

什么是代理?

  • 代理服务器:网络信息中的中转站(将请求发送给web服务器,然后该服务器转发给我们要访问的网站)

代理的作用?

  • 突破自身IP访问的限制
  • 隐藏真实的IP受到攻击,隐藏自身真的IP

代理相关的网站:

  • 快代理

代理IP的类型

  • http:应用到http协议对应的url中
  • https:应用到https协议对应的url中

使用方法:只需在requests请求参数后面加上一个:proxies={"http":'代理ip'}即可

代理IP的匿名度:

  • 透明:服务器知道该次请求使用了代理,也知道请求对应的真是ip。
  • 匿名:知道使用了代理,不知道真实ip。
  • 高匿:不知道使用了代理,更不知道其真实的ip地址。

高性能异步爬虫

目的:在爬虫中使用异步实现爬取高性能的数据爬取操作。

当进行多个url的数据爬取时,速度往往会变慢,这是因为我们的程序是单线程,只有拿到相应数据之后才会执行其它的方法,响应数据效率很慢。这时就需要使用异步操作去解决。

异步爬虫的两种方式:

  • 多线程,多进程:
  • 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。
  • 弊端:无法无限制的开启多线程或者多进程(耗费cpu)。
  • 线程池、进程池:
  • 好处:我们可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销。
  • 弊端:池中线程或进程的数量是有上限的(有上限就会出现当阻塞操作超过线程数量时会变慢)。

项目实践——同时爬取li视频的多个视频资源

由于qinquan于是只能发截图:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值