爬虫虽然好,但是还是不要乱爬,“爬虫爬的好,牢饭吃到饱

当一个商品查询接口遭遇爬虫流量暴增导致线上报警,本文介绍了如何通过建立反爬系统,包括分析请求特征、利用黑名单IP策略,以及在性能与复杂度之间权衡,最终选择方案1进行实现,以保护系统并提升用户体验。
摘要由CSDN通过智能技术生成

大前端程序员如何发展(绝对干货

  • 正在午睡,突然收到线上疯狂报警的邮件,查看这个邮件发现这个报警的应用最近半个月都没有发布,应该不至于会有报警,但是还是打开邮件通过监控发现是由于某个接口某个接口流量暴增, CPU 暴涨。为了先解决问题只能先暂时扩容机器了,把机器扩容了一倍,问题得到暂时的解决。最后复盘为什么流量暴增?由于最近新上线了一个商品列表查询接口,主要用来查询商品信息,展示给到用户。业务逻辑也比较简单,直接调用底层一个 soa 接口,然后把数据进行整合过滤,排序推荐啥的,然后吐给前端。这个接口平时流量都很平稳。线上只部署了6台机器,面对这骤增的流量,只能进行疯狂的扩容来解决这个问题。扩容机器后一下问题得到暂时的解决。后来经过请求分析原来大批的请求都是无效的,都是爬虫过来爬取信息的。这个接口当时上线的时候是裸着上的也没有考虑到会有爬虫过来。

解决办法

  • 既然是爬虫那就只能通过反爬来解决了。自己写一套反爬虫系统,根据用户的习惯,请求特征啥的,浏览器 cookie 、同一个请求频率、用户 ID 、以及用户注册时间等来实现一个反爬系统。
  • 直接接入公司现有的反爬系统,需要按照它提供的文档来提供指定的格式请求日志让它来分析。
         既然能够直接用现成的,又何必自己重新造轮子呢。最后决定还是采用接入反爬系统的爬虫组件。爬虫系统提供了两种方案如下:

方案1:

  • 爬虫系统提供批量获取黑名单 IP 的接口( getBlackIpList )和移除黑名单 IP 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值