搜索的未来(1)

搜索的未来

引子

一直以来,想写这篇文章,谈谈搜索引擎的发展,做一下展望;当然,并不仅仅是因为现在搜索引擎火热,毕竟一年多没有正经写过文章了,自从进入NLP行业工作以来,便明白自己懂的太少,应该多学多做,但这两个月里新接触的项目就是搜索引擎,做了一年多的短语处理研究,现在开始接触应用,加班之余心里便也有了些想法.文章不写,但旧习尚在,初步的酝酿一下,然后去googlebaidu一搜,才发现"搜索的未来"竟然是为各家所热谈().于是便读,便又觉着与我所想的不太一样.然后还是提起笔,写写自己的想法吧.虽说关乎"未来",无人可以事先确认的,但本着交流的目的,也别有一番乐趣.

搜索引擎似乎是个新事物,但搜索的确是个老课题.搜索,即找到你需要的信息,这是人类蒙昧时代就开始面临的挑战.如果信息量较少,或者信息的结构秩序良好,则自然搜索起来也比较容易;但一旦信息量突破到一定程度,而且信息的内在结构不甚明朗的时候,搜索就成为了一个甚为复杂的问题,例如现在的互连网信息,或者规模巨大的未经加工的文本语料库,在这上面搜索你所想要的信息便是如此.

我觉得这是搜索引擎所最核心的本质,即在信息量巨大,或者信息结构无序的情况下,找到合适信息的过程,或服务.搜索引擎是在这个意义是诞生的,没有它,人类利用信息的能力将大大受限;一边是无限增长的信息量,一边是人类渴望利用信息的需求:这个矛盾,决定着搜索的未来.

意图表达

人类渴望利用信息的需求,最终将以某种形式表达出来,这也就是搜索的第一步,搜索意图的表达问题.一个搜索引擎的界面,所展现的也是它对这个问题的回答:它所能接受的搜索意图的表达方式.

这也是我们对于搜索引擎的第一印象.比如googlebaidu,我们进去,它们总是让我们输入一些关键词,然后以此反馈给我们一些信息.这是目前搜索引擎最基本的方式,即认为搜索意图是以关键词序列来表达的.记得一个网友讨论搜索引擎的未来,曾提到简单的智能搜索”,也就是分词与后续处理,他举了这样一个例子:

克林顿是谁

这样一个输入串,搜索引擎将能够把它分解为克林顿”,””,”三部分,并把后两者过滤掉,给我们查找关键词克林顿的内容.

   

这是一个比较有意思的问题.我们说,搜索的本质就是在信息量巨大或无序的情况下,给人找到合适的信息;这与人相关的第一个接口,也就是搜索引擎如何理解人类的搜索意图,或者说人类如何把搜索请求传达给搜索引擎.

若是由语言文字来表达搜索需求,因为中文书面表达的自身特点,分词的确是处理的第一步[1].比如对于上面的输入串, 人一般能在瞬间把这个串处理为三个部分“克林顿 谁”,根据有关知识而知道克林顿是个人名,具体说是美国前总统,政绩不错,但也闹闹菲闻.不过对于计算机而言,恰当的识别出“克林顿”是个人名并不是件简单的事情,知道后面这些信息更不容易.随手举个例子,“张克林顿时傻了眼”这个串中,“克林顿”先生再也不存在了.

分词问题有很多,我们暂时不深谈这个,回到搜索上来.仍说上面的例子,当用户输入“克林顿是谁”作为搜索意图时,他的意思很明白,“知道克林顿是个人,但不知道他的具体来历”,换句话,此时这个串在语义上基本等价于“克林顿的简历”这个串,事实上仅从搜索意图上讲,这个用户并不关心克林顿交女朋友的花边新闻这些话题.所以,“克林顿”,“是”,“谁”三个部分各有侧重而又是一个统一的整体,对于用户来讲表达他的搜索意图是非常合适的.

但现在的搜索引擎,大家知道主检索方式是以“关键词”来进行的.那三个部分,本是各有关系、各有侧重的整体,但搜索引擎给用户提供的界面是,它理解(处理)不了这种关系与侧重,它比较善于处理一些实体词,关键字.所以,用户的“克林顿是谁”并不是一个很好的搜索要求,需要搜索引擎“智能”的过滤掉“是谁”这样的子串,然后再进行检索.

 

所以,由这个角度来谈,搜索引擎还处于它的幼年时期.在理解人类的搜索意图的时候,它只能理解部分的词语片段,而不是有意义的语言整体.开始在查阅搜索的未来相关资料的时候,曾看到很多类似的宣言:yahoo是第一代搜索引擎,google是第二代搜索引擎,而自己是第三代搜索引擎云云.心中不由一乐,我并不关心这个代数或辈分,因为大家分明还都是排队队分果果的幼儿时期.

 

搜索的未来,第一个表现应该是在界面上向人靠拢,逐步趋于无障碍理解人类的搜索请求,解决现在意图表达上的缺陷.



[1] HNC认为是组字成词(组概念成块),分词是瓶底而非瓶颈;事实上分词仍是处理的第一步,只不过在后续处理中可由语法语义信息对最初分词结果调整.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值