搜索引擎设计实用教程(1)-以百度为例

最新推荐文章于 2022-06-06 20:26:16 发布

张俊林博客

最新推荐文章于 2022-06-06 20:26:16 发布

阅读量1.8w

点赞数 3

分类专栏：搜索引擎文章标签：搜索引擎百度算法 google 工具 bt

本文链接：https://blog.csdn.net/malefactor/article/details/534808

版权

本文详细探讨了搜索引擎中的查询处理和中文分词技术，以百度搜索引擎为例。内容涉及用户查询处理，包括重复字符串处理、英文和数字处理。在中文分词部分，分析了百度的分词条件、分词时机以及可能采用的双向最大匹配算法，并讨论了消歧和未登录词的识别。百度在中文处理上的优势主要体现在大型专用词典，但其分词算法并无显著创新。

摘要由CSDN通过智能技术生成

搜索引擎设计实用教程-以百度为例

之一:查询处理以及分词技术

中科院软件所 张俊林

2005年11月

随着搜索经济的崛起，人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业，会根据搜索引擎的知名度以及日流量来选择是否要投放广告等；作为普通网民，会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料；作为技术人员，会把有代表性的搜索引擎作为研究对象. 搜索引擎经济的崛起，又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据，以及大量等待去费力挖掘的金矿。

但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎.搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算法,CACHE机制,ANTI-SPAM等等.这些技术细节,作为商业公司的搜索引擎服务提供商比如百度,GOOGLE等是不会公之于众的.我们可以将现有的搜索引擎看作一个黑盒,通过向黑盒提交输入,判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节.