Intelligent information retrieval（智能信息检索综述）

最新推荐文章于 2024-12-18 20:36:13 发布

上杉翔二

最新推荐文章于 2024-12-18 20:36:13 发布

阅读量3.3k

点赞数 3

分类专栏：推荐系统深度学习机器学习文章标签：信息检索综述推荐与检索 IR 微软

本文链接：https://blog.csdn.net/qq_39388410/article/details/116272877

版权

本文深入探讨了搜索引擎的工作原理，包括网页抓取、倒排索引、缓存、排序算法以及用户行为影响。重点介绍了信息检索的评估指标、机器学习在搜索中的应用、语义信息抽取、社交媒体搜索、大规模图排序以及知识增强的搜索。同时，展望了未来搜索技术的发展趋势，如语用匹配、多轮交互和多模态搜索。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

智能信息检索
最近发现微软关于搜索引擎和信息检索技术的一个课程：《智能信息检索》，虽然这个课程的比较早，技术上比较落后了，但是很多的基础检索、搜索引擎的想法仍然不过时。这篇博文用于记录一些重点内容，详细课程可以去看raw video。

在这里插入图片描述
1 search engine overview——system，algorithms and challenges
搜索引擎主要流程如上图，从下到上主要有：

Web-Crawler抓取网页。现有的网页总数超万亿，所以需要决定抓取哪些网页，并多长时间来更新网页（网页会有自己的更新与变动），特别是搜索公司只存快照（为了检索速度快，不可能对比所有网页的最新版本）+多服务器备份（防丢失以及多地服务时更快）。
page parser找超链接，并决定抽取网页的什么信息。
index build倒排索引。正排文档是指一个文档里面包含什么词。而倒排文档：这些词在哪些文档里面（对应用户用query去搜索时往往用短词）。用倒排的好处是搜索不用完全遍历，可以快速得到结果。值得注意的是，倒排里面应该存尽可能多的信息，这样可以方便对文档本身和query都做足够的数据分析。
caching存总是搜的query的热门结果。这种对高频的处理能加快响应速度。
ranking排序返回给用户。Ranking最大的问题的如何衡量“相关性”，最简单的有tf-idf，bm25等等。返回的结果只做topk，并不是排序所有的结果。

搜索引擎神话：