2018爬虫行业分析报告

近日,腾讯云发布2018上半年安全专题系列研究报告,该系列报告围绕云上用户最常遭遇的安全威胁展开,用数据统计揭露攻击现状,通过溯源还原攻击者手法,让企业用户与其他用户在应对攻击时有迹可循,并为其提供可靠的安全指南。本篇报告中,云鼎实验室通过部署的威胁感知系统,捕获到大量爬虫请求流量以及真实来源IP,且基于2018年上半年捕获的数亿次爬虫请求,对互联网爬虫行为进行分析。

 

基本概念

爬虫是什么?

爬虫最早源于搜索引擎,它是一种按照一定的规则,自动从互联网上抓取信息的程序。

搜索引擎是善意的爬虫,它爬取网站的所有页面,提供给其他用户进行快速搜索和访问,给网站带来流量。为此,行业还达成了Robots君子协议,让互联网上的搜索与被搜索和谐相处。

原本双赢的局面,很快就被一些人破坏了,如同其他技术,爬虫也是一把双刃剑,变得不再「君 子」。尤其是近年来「大数据」的概念,吸引了许多公司肆意爬取其他公司的数据,于是「恶意 爬虫」开始充斥互联网。

爬虫的分类

按爬虫功能,可以分为网页爬虫和接口爬虫。

网页爬虫:以搜索引擎爬虫为主,根据网页上的超链接进行遍历爬取。

接口爬虫:通过精准构造特定API接口的请求数据,而获得大量数据信息。

按授权情况,可以分为合法爬虫和恶意爬虫。

合法爬虫:以符合Robots协议规范的行为爬取网页,或爬取网络公开接口,或购买接口授权进行爬取,均为合法爬虫,该类爬虫通常不用考虑反爬虫等对抗性工作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值