从0到1学搜索：搜索引擎的基本技术逻辑（一）

最新推荐文章于 2024-08-27 10:36:27 发布

00甘道夫00

最新推荐文章于 2024-08-27 10:36:27 发布

阅读量4.7k

点赞数 2

文章标签：搜索搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhanglianyu00/article/details/55045488

版权

本文介绍了搜索引擎的基本技术逻辑，重点讲解了建索引的过程，包括确定关键词集合和创建存储索引。对于中文搜索，文章强调了分词的重要性，提到中文需要特定的算法进行分词，并指出分词模型需要不断学习更新以适应新词的出现，从而提升搜索引擎的效果。

摘要由CSDN通过智能技术生成

最近在做搜索相关的项目。虽然谷歌和百度用了不知道多少年了，但此前可以说在搜索技术上是纯小白。于是最近恶补了一些相关知识。好久没有从零开始接触一个全新领域了，虽然有点焦头烂额，但过程中越来越感到乐趣。边学边随便写点笔记备忘，梳理搜索的技术逻辑。

（1）爬虫

从最基本的搜索行为开始。搜索需要满足的，是用户输入一个关键字，得到与之相关的信息。那么，首先要有一个信息池。如果没有任何信息，搜索引擎倒简单了，只要一行代码，always返回空就行了。。。

这个信息池可以是自己的，比如淘宝上面阿里提供的搜索商品功能。但如果想做一个像百度一样的全网搜索，就一定要包含别人的东西，因为没有一家公司可以囊括整个互联网，但用户能够选择的，理论上是整个互联网。正因为整个互联网内容太多，人工去寻找是不可能的，搜索成为刚需，于是造就了谷歌和百度富可敌国的巨大市值。所以，爬虫是第一步，爬到别人的网页资源，资源越多，搜索引擎越有竞争力。

爬虫是后台系统，即不直接和用户打交道，可以24小时不停地在服务器上跑。对于爬虫而言，当然有很多技术的挑战，比如如何充分地发掘到暗网资源，如何动态更新资源等。但可能更重要的是非技术因素，经典案例是淘宝屏蔽百度。互联网最要的是入口地位，把资源开放给搜索引擎，能够借助搜索推广的同时，也意味着将入口地位部分地交给了搜索引擎。

最低0.47元/天解锁文章

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。