搜索之路在何方

最新推荐文章于 2024-05-07 15:00:55 发布

magicblue

最新推荐文章于 2024-05-07 15:00:55 发布

阅读量794

点赞数

分类专栏： IR & NLP & TC 文章标签：语言搜索引擎自然语言处理文档工作互联网

本文链接：https://blog.csdn.net/magicblue/article/details/1704533

版权

IR & NLP & TC 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

互联网是一个真正改变人们生活方式的发明，与这种改变相提并论的恐怕得拿出电气化了。互联网最初是一个军方项目，但是在民用化之后，其中的信息量不停的增长。随之而来的问题则是如何在海量的信息中找到你所需要的信息，这很重要。搜索技术的发展时间很短，大概只有十多年。直到今天，搜索技术在本质上仍旧是最开始的关键词匹配。获得高质量的查询结果关键在于你要以机器的方式去思考应该如何写出那几个查询词，如果你以人类的思考方式去构成查询词，那么结果是相当糟糕的。

在搜索技术的理论研究领域，搜索模型已经经历了四个阶段：1，词频模型（if, idf）；2，向量模型；3，概率模型；4，语言模型。到目前为止，我们使用的搜索引擎都是词频模型，而向量模型才刚刚起步（据说GOOGLE开发了一个向量模型的搜索引擎，但是还在开发阶段）。撇开为什么工业界那么“不思进取”不谈，我们来看看搜索之路会怎么走。

问一个上过网的人：“你觉得什么是最好的搜索引擎？”回答肯定是所谓的问答系统。在这种情况下，使用者把搜索引擎当成了一个活生生的人，它可以理解我们在说什么，在问什么。毫无疑问，这就是搜索的终极目标。但是实现它的难度确是impossible，至少在很多年之内。这涉及到另外一门学科：NLP或NLU，自然语言处理，自然语言理解。这门学科还很不成熟，在机器模仿理解（不可能是真正的理解，但可以模仿）上，还仅仅处在研究阶段。比这个问题简单的机器翻译，其产品也还远远不能满足人的需要。所以想指望在不久的将来能用上真正好用的问答系统搜索引擎，那是没可能了。

不过最近的语言模型把搜索靠向了NLP领域。所谓语言模型就是对语言建立一个数学模型，通过这个模型来表示语言。那么怎么建立语言的模型呢？语言是有规则可言的，语言的语法是最直观的规则性。再有就是语境，通过阅读一个句子的前半部分，后面的词可以大致猜出是什么，至少是什么范围内的，这也是规则性。有个这些规则性，就可以建立模型。在数学上，这个模型其实就是一个条件概率分布：在某某词出现的情况下，下一个词出现的概率是多少。NLP的根基就是这样的模型，一般是三元模型，也就是说，其“条件”是前两个词，估计后面一个词，共三个。你也许觉得这样的模型太简陋了，但是语言是相当复杂的，使用更复杂的模型很容易会导致模型本身在语言的不同层面自相矛盾。人类对于自己的语言还远远没有足够的了解，在理解人类语言为什么会这样子的方面，走在前面的是乔姆斯基。

回过头来再看看搜索的问题，所谓搜索，就是评价要搜索的东西与搜索关键词的关联程度。词频模型是考虑文档中含有多少关键词（实际情况更复杂，但本质上是这样）；向量模型是考虑查询向量和文档向量的相似度，一般用两向量之间的夹角来衡量；概率模型也是考虑查询词与文档的相似度，不过是以条件概率的方式（条件概率的量叫做likelihood，英文的意思就是可能性，可能性越大，两者也越相似）；语言模型也一样，不过它的做法更加隐晦。它把文档做成一个个的语言模型，然后估计这些模型生成指定查询词的概率是多少。初看起来这个概率模型没什么不同，但是语言模型要做更多的工作：把文档做成语言模型。这些工作使得语言模型有非常强的灵活性。最重要的是，语言模型终于把搜索问题看成了一个与语言相关的问题，而不再是关于词的启发式。

不过，模型是如此简单，其性能也不可能达到像人一样的水平。现在关于语言的知识还很少，并不能帮助我们提高模型的能力，统计方法正是此领域的主流。统计方法的坏处是它把所有的个人语言平均了，而人和人之间对于语言的理解和使用是不一样的，从实用的角度讲，这是一个影响系统性能的非常大的因素。幸好语言模型的灵活性可以使得我们在一定程度上弥补这个缺陷。可惜的是这方面的工作至今都还没有人去做，原因很简单：无法验证。自语言模型提出以后，研究的内容都在如何提高模型的精度。但是这些工作都是在一个称作TREC或类似的实验数据上开展的，这些实验数据本质上就是一段短文和它的摘要。毫无疑问，这样的实验数据是在语言上平均的，而且它必须如此。这些数据很难说提供了真正有用，有意义的经验。举个例子，假如说可以让很多人对于同一个搜索需求写出查询语句，然后在语言上对这些语句求平均（这个操作只是假想的），那么会得到什么呢？这些人真正想要的文档的语言上的平均！而且这个结果应该是高质量的。可惜的是，真正有意义的个人被忽略了。要想针对个人就需要这个人的实验数据，显然这个数据很难得到。再者就是，针对个人的模型精度越高，那么用在其他人身上的效果就越差。这是过度拟合的结果。

基于n元语法模型的语言模型由于没有关于语言的知识，相比较其他模型，很难在性能上有质的提高。如果能够大幅提高系统性能，那么着眼点应该在个人，而非全体（除非有一天我们可以得到被乔姆斯基叫做关于人类语言知识的universial grammar）。个人的工作有很多，最典型的就是个人兴趣，还有就是个人语言使用习惯。未来的搜索一定是结合了语言知识的搜索，客户端的工作也会增加不少。因为针对个人语言使用特点，兴趣的搜索会建立一个档案来分析你的个人特点。这一切的最佳地点就是客户端，有关效率与隐私。另外这给手机留下了很大的发展空间，现在的智能手机其实一点也不智能，只能算是一台手机大小的电脑而已，你并不能用它做更多。认识科学也许会介入这个领域，但那也许是更遥远的事情了。

magicblue

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
搜索之路在何方

互联网是一个真正改变人们生活方式的发明，与这种改变相提并论的恐怕得拿出电气化了。互联网最初是一个军方项目，但是在民用化之后，其中的信息量不停的增长。随之而来的问题则是如何在海量的信息中找到你所需要的信息，这很重要。搜索技术的发展时间很短，大概只有十多年。直到今天，搜索技术在本质上仍旧是最开始的关键词匹配。获得高质量的查询结果关键在于你要以机器的方式去思考应该如何写出那几个查询词，如
复制链接

扫一扫