2018爬虫行业分析报告

近日,腾讯云发布2018上半年安全专题系列研究报告,该系列报告围绕云上用户最常遭遇的安全威胁展开,用数据统计揭露攻击现状,通过溯源还原攻击者手法,让企业用户与其他用户在应对攻击时有迹可循,并为其提供可靠的安全指南。本篇报告中,云鼎实验室通过部署的威胁感知系统,捕获到大量爬虫请求流量以及真实来源IP,且基于2018年上半年捕获的数亿次爬虫请求,对互联网爬虫行为进行分析。

 

基本概念

爬虫是什么?

爬虫最早源于搜索引擎,它是一种按照一定的规则,自动从互联网上抓取信息的程序。

搜索引擎是善意的爬虫,它爬取网站的所有页面,提供给其他用户进行快速搜索和访问,给网站带来流量。为此,行业还达成了Robots君子协议,让互联网上的搜索与被搜索和谐相处。

原本双赢的局面,很快就被一些人破坏了,如同其他技术,爬虫也是一把双刃剑,变得不再「君 子」。尤其是近年来「大数据」的概念,吸引了许多公司肆意爬取其他公司的数据,于是「恶意 爬虫」开始充斥互联网。

爬虫的分类

按爬虫功能,可以分为网页爬虫和接口爬虫。

网页爬虫:以搜索引擎爬虫为主,根据网页上的超链接进行遍历爬取。

接口爬虫:通过精准构造特定API接口的请求数据,而获得大量数据信息。

按授权情况,可以分为合法爬虫和恶意爬虫。

合法爬虫:以符合Robots协议规范的行为爬取网页,或爬取网络公开接口,或购买接口授权进行爬取,均为合法爬虫,该类爬虫通常不用考虑反爬虫等对抗性工作。

恶意爬虫:通过分析并自行构造参数对非公开接口进行数据爬取或提交,获取对方本不愿意被大 量获取的数据,并有可能给对方服务器性能造成极大损耗。此处通常存在爬虫和反爬虫的激烈交 锋。

数据从哪来?

爬虫不生产数据,它们只是数据的搬运工。要研究爬虫,就得先研究数据的来源。尤其是对小型公司来说,往往需要更多外部数据辅助商业决策。如何在广袤的互联网中获取对自己有价值的数据,是许多公司一直考虑的问题。通常来说,存在以下几大数据来源:

企业产生的用户数据

如 BAT 等公司,拥有大量用户,每天用户都会产生海量的原始数据。 另外还包括 PGC(专业生产内容)和 UGC(用户生产内容)数据,如新闻、自媒体、微博、短视频等等。 

政府、机构的公开数据

如统计局、工商行政、知识产权、银行证券等公开信息和数据。

第三方数据库购买

市场上有很多产品化的数据库,包括商业类和学术类,比如 Bloomberg、 CSMAR、 Wind、知网等等,一般以公司的名义购买数据查询权限,比如咨询公司、高等院校、研究机构都会购买。

爬虫获取网络数据

使用爬虫技术,进行网页爬取,或通过公开和非公开的接口调用,获得数据。

公司间进行数据交换

不同公司间进行数据交换,彼此进行数据补全。 

商业间谍或黑客窃取数据

通过商业间谍获取其他公司用户数据,或者利用黑客等非常规手段,通过定制入侵获取数据或地下黑市购买其他公司数据。此处商业间谍泄漏远多于黑客窃取。

没有更多推荐了,返回首页