搜索引擎简介之数据采集篇

最新推荐文章于 2023-05-17 12:01:10 发布

死敌wen

最新推荐文章于 2023-05-17 12:01:10 发布

阅读量444

点赞数

分类专栏：开发基础程序人生文章标签：搜索引擎爬虫

本文链接：https://blog.csdn.net/weixin_40601534/article/details/119681565

版权

开发基础同时被 2 个专栏收录

28 篇文章 0 订阅

订阅专栏

程序人生

24 篇文章 0 订阅

订阅专栏

背景

随着互联网上的信息持续爆发式的增长，依靠人类的力量去收集和查找想要的信息已经越来越不可能实现，所以人们开始通过搜索引擎技术来帮助人们更快更准确的筛选和寻找自己所需要的信息。

痛点

互联网上的信息分布具有以下一些特点，其中任意一个都会对人类用户的信息搜寻带来很大的困扰

分布的范围广，动辄几百上千万的网站中都可能存在想要的信息
分布的位置零散，没有合适的索引能够帮助用户快速的找到想要的信息
内容良莠不齐，大量重复、错误、谬误等信息的存在，让用户很难判断所需内容的准确性

爬虫发展简史

上古时期：简单爬虫
上古时期没有那么多网站需要抓取，网站构建和维护的技术实力也较为原始，所以普通的能完成http访问的工具包配合简单的网页分析代码就可以完成。
中古时期：定制化页面解析
中古时期开发者开始有了一些版权和反爬意识，同时开始尝试通过不同的手段美化自己的页面，仅依靠简单通用的解析库已经不足以支持丰富多彩的页面加载、渲染方式了，所以需要针对不同的页面单独定制解析逻辑。
大航海时代：网页模板与工业化实践
随着网络用户的增长，个人和机构对网站/页这样的信息渠道的依赖也愈发紧密，web技术也从全栈逐渐向前后端分离的架构演进，网站的构建从过去八仙过海的方式逐渐演化为通用模板配合细微定制化升级，从小作坊式的迭代逐渐升级为工业化集群式的更新与升级
近代：制式工具
随着网站/页数据量的进一步增长，对网站/页内容的抓取需求也愈发强烈，爬虫从业者们也由过去的单兵作战逐渐成长为团队作战，随之而来的就是爬虫相关的框架等技术的蓬勃发展。
现代：分布式爬虫
现代的公司团队对数据的渴求愈发强烈，而互联网上直接可访问的网站/页又是最直接和廉价的数据来源，短时间大规模的数据采集倒逼爬虫团队从过去的单体服务进化成大规模分布式的机器人。

爬虫相关概念

爬虫协议

虽然爬虫方便了搜索引擎对开放数据进行收录，进而能够支持普通用户对信息的检索，但是有一些站点出于各种考虑不希望自己的页面被搜索引擎收录，爬虫协议就应运而生了。爬虫协议主要是一个爬虫业的一个约定俗成的约束，主要规定了对于某些爬虫，本站点中的某些路径的页面的一些权限。不过，既然是约定俗成的约束，就是个类似君子协定的存在，也会有爬虫的使用方无视这种协议进行数据的抓取，其中比较有名的如某条，某多等公司。

爬虫基础库

分布式框架，用来进行分布式多线程的对站点进行访问（下载）、分析、和保存
存储：
1. 短期存储（如redis、memcache等）用来做系统状态跟踪、资源去重等
2. 中期存储（如RDMS等）用来保存系统配置、解析模板等
3. 长期存储（如OSS等）保存rawdata，作为基底数据，用来支持后续的数据需求
解析模板库，通过规定不同的解析模板来进行常规页面的解析和信息抽取
反爬工具包，如ip池、验证码识别库等工具库，用来突破反爬控制
消息队列：
1. 在基础数据抽取和清洗之后，通过消息队列将数据抓取和后续的服务进行解耦
2. 通过不同队列/topic等方式驱动通用爬虫worker将路径的抓取和内容的抓取进行解耦

反爬技术

现在比较流行的说法是流量为王，想要有流量就要有流量入口，而搜索引擎往往就扮演了流量入口这样一个角色，所以会衍生出SEO（Search Engine Optimizatio）、竞价排名等概念。信息的提供方在围绕着某些搜索引擎付出了时间、精力、资源进行运营之后，就会希望自己的高质量的内容能出现在相关的平台之中，同时也要尽量避免这些内容被其他平台“白嫖”；除此之外，在一些站点中会有一些页面、站点也会有金钱、影响力等的作用，如秒杀茅台、抢优惠券、主播打榜等。

正是由于企业、站点存在这种既要又要还要的拧巴的需求，业界开发出了各种反爬技术。反爬技术和爬虫技术就像矛和盾的关系，爬虫技术希望可以更准确高效的抓取数据，但是反爬技术又希望提高爬虫抓取解析内容的代价。

信息去重

由于源信息的更新不会及时通知到爬虫方，爬虫只能定时/不定时的对目标地址进行信息抓取。由于信息可能会存在包括信息的复制、转发、修订、归档等操作，爬虫抓取到的信息可能会存在重复，而对重复信息的处理会浪费系统资源，所以爬虫运行时很重要的一部分是信息去重。

信息去重主要包含以下几个方向：

url去重，对重复的源地址进行去重，爬虫只关心新内容的抓取，而跳过之前曾经处理过的地址
页面内容去重，对于不同地址但相似内容的信息进行分析，跳过后续复杂的数据清洗、解析的流程
信息深层去重，爬虫在实际运行时，可能会遇到针对热点事件、重要内容进行不同角度的撰写甚至洗稿，所以需要对内容的深层分析，不过大部分的数据抓的需求是不需要进行这一步的去重的