2018爬虫行业分析报告

最新推荐文章于 2023-10-10 14:31:53 发布

51top3

最新推荐文章于 2023-10-10 14:31:53 发布

阅读量1.4w

点赞数 1

分类专栏：最新分享文章标签：爬虫反爬虫 2018大数据数据爬取用户数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/armhome/article/details/82913615

版权

近日，腾讯云发布2018上半年安全专题系列研究报告，该系列报告围绕云上用户最常遭遇的安全威胁展开，用数据统计揭露攻击现状，通过溯源还原攻击者手法，让企业用户与其他用户在应对攻击时有迹可循，并为其提供可靠的安全指南。本篇报告中，云鼎实验室通过部署的威胁感知系统，捕获到大量爬虫请求流量以及真实来源IP，且基于2018年上半年捕获的数亿次爬虫请求，对互联网爬虫行为进行分析。

基本概念

爬虫是什么？

爬虫最早源于搜索引擎，它是一种按照一定的规则，自动从互联网上抓取信息的程序。

搜索引擎是善意的爬虫，它爬取网站的所有页面，提供给其他用户进行快速搜索和访问，给网站带来流量。为此，行业还达成了Robots君子协议，让互联网上的搜索与被搜索和谐相处。

原本双赢的局面，很快就被一些人破坏了，如同其他技术，爬虫也是一把双刃剑，变得不再「君子」。尤其是近年来「大数据」的概念，吸引了许多公司肆意爬取其他公司的数据，于是「恶意爬虫」开始充斥互联网。

爬虫的分类

按爬虫功能，可以分为网页爬虫和接口爬虫。

网页爬虫：以搜索引擎爬虫为主，根据网页上的超链接进行遍历爬取。

接口爬虫：通过精准构造特定API接口的请求数据，而获得大量数据信息。

按授权情况，可以分为合法爬虫和恶意爬虫。

合法爬虫：以符合Robots协议规范的行为爬取网页，或爬取网络公开接口，或购买接口授权进行爬取，均为合法爬虫，该类爬虫通常不用考虑反爬虫等对抗性工作。

最低0.47元/天解锁文章

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。