又到新开学了,我打开了刚刚看完第一章的西瓜书,这个问题就出来了,我跃跃欲试。我先将这个问题定义为:机器学习在搜索引擎上的应用。维基百科:搜索引擎(英语:search engine)是一种信息检索系统,旨在协助搜索存储在计算机系统中的信息。
搜索引擎
我们先得明白搜索引擎都干了啥,然后看哪些部分可以用机器学习来提高用户体验的,下图出自:第 1 章 搜索引擎是如何工作的构成搜索引擎的全部要素1、文档管理器:存储作为检索对象的文档。当查询到相匹配的文档时,会取出该文档的一部分作为摘要。
2、索引构建器:从检索对象的文本文档中构建文本的索引。
3、索引管理器:管理带有索引结构的数据,索引结构是一种用于进行高速检索的数据结构。
4、索引检索器:利用用户的查询进行文本检索,并根据某种规则进行排序并将结果返回给应用。
除了以上的组建除外,一个完整的搜索引擎还包括:爬虫、搜索排序系统。
因为我们只是大致地了解一下机器学习在搜索引擎上的作用,所以关于搜索引擎的部分就先讲到这,然后来看看哪些地方可以优化。
机器学习对搜索引擎可进行哪些优化
根据搜索引擎的结构,我们可以进行以下的机器学习优化文档管理器:生成更精准的摘要。本质就是文档摘要的自动生成,涉及深度学习、神经网络、NLP
索引构建器:索引构建已很成熟,但我发现仍有学者将机器学习应用于这部分,主要是用机器学习算法代替标准哈希函数,但效果还不太好[3]。
索引管理器:暂无。
索引检索器