搜索的未来(2)

知识的组织与管理

对于搜索引擎,处理人类的搜索请求只是其第一步.

另一个问题是,既然搜索引擎是为了解决信息量巨大(或无序)与人类利用信息的需求之间的矛盾而诞生的,那么如何组织与管理这数量巨大(或无序)的信息?

自从计算机与互连网诞生以来,这个问题尤其显的突出.现在人类社会中每天都有大量的信息产生,并在各种媒介上流通,这些信息都可以有其数字形式,事实上现在信息数字化也是一个趋势.但是,即使现在字符流已经可以无障碍存储在计算机及各种相关设备上,你如何查找到它们,在你重新利用它们之前?

或许有人会说,既然字符流已经存入计算机系统了,那么查找还不就是个匹配的问题?

事实上,不仅仅是一个匹配操作,这也是知识的组织与管理的问题,是搜索引擎所急需解决的第二个问题.比如,我们有如下两篇文本信息,存储在不同的网页上:

 

传统的自然语言处理模式是“语法规则+词典”,但语言中许多词语组合不能或很难用语法规则加以描述。把这些组合作为整体收入词库中可以使语法得到简化,从而降低系统的复杂度。基于这种“大词库,小语法”的思想,本文论述了建立现代汉语短语信息库的必要性,并对建库的方法、收录的原则和信息库进行了简要的介绍。[1]

 

复指短语是由两个词或短语重叠在一起指同一个人或事物作同一个成分的,彼此有注释或补充说明的关系。复指短语作主语或宾语时,缩句时一般可保留表示某某人或某某事物的主要词语;如果复指短语本身很短,也可以将整个儿复指短语保留在主干中。例如:“小英雄雨来掩护了抗日革命干部李大叔。”这一句的主语和宾语都是复指短语,其中的主要词语是“雨来”和“李大叔”,因此,应该缩成“雨来掩护了李大叔”(当然也可缩成“小英雄雨来掩护了李大叔);如果缩成“小英雄掩护了抗日革命干部”,则主干的意思远不如“雨来掩护了李大叔”来得明确。[2]

 

这两篇文本都是与短语相关的知识论述,但区别也是显而易见的.前者是一篇学术论文的摘要,介绍了汉语短语信息库的建设,后者是小学语文教学中对复指短语的阐述.但若是去匹配,一个用户输入短语”,你又该如何操作呢?如何把这两者区别开来并恰当的反映给用户?

如果是人呢,人会怎么做?他会说我们这里有两段文本,分别介绍了短语相关的不同的知识,一个是关于短语语料库建设的问题的,一个是关于小学语文教学复指短语的,尊敬的客户您需要哪方面的信息呢?

 

如果你对你存储的信息不能够整理出一个结构,一个秩序出来,也就是说,如果你不能理解你存储的信息,你将无法对它进行有效查找.

记得另一个网友曾展示出这样的愿望:

如果我们能把资源的存储架构改变得更符合OO的思想,那我们查找信息就可以像是去察看"某个国家里的某个省市中某条街道的某栋楼里的某单元某房号里某人的什么属性"一样简单。因为数据存储已经不再零散。在我的脑海里,存储架构的OO化可以是实际资源的存储位置OO化或者是信息索引存储的OO化,又或者是存储架构模板在各节点的映射。”(原文引用qingbingyu)

我是这样回答的:

我觉得这个资源的存储架构是知识表达的问题.对于海量信息如何存储与管理(计算),关系数据库,以及现在的超文本连接显然都是不够的.OO是不是就够?OO本身提供了继承与组合两种基本关系,但这些关系在语义上是无法进一步计算的.所以OO目前可能对这个还没办法有所作为.这是一点个人看法.下一代互联网Semantic web就是从语义关系构建的角度对现在的网络进行改造,只是这个还处于实验室中.有兴趣可以查一查这方面的资料.顺便说一下,语义网在某种程度上可以改善信息无序的结构,解决现在搜索引擎的问题;但它并不能解决NLU&NLP的问题,解决不了AI的问题.

 

既然说到知识的组织与管理,就有必要做进一步的解释.做自然语言处理的,常常会提到语料库(而且,语料库经常是和统计语言学,和经验主义方法论相关联的),做搜索引擎,也常常会提到索引库(事实上索引库也不妨看作一个熟语料库,经过加工后而方便检索计算的语料库);我觉得,这些都是对语言知识的组织与管理,其核心都是知识的抽取与表达上.虽然数据的组织与管理工具不同,可能依据关系数据库建立的,也可能存储为XML格式,或者其它什么形式,但本质都是一样的.

上面说语料库是和统计学派以及经验主义相关联的一个概念,但事实上理性主义不仅有自己的规则库,其研究也常常是依托各种语料库开展的.所以从根本上讲,知识的组织与管理是自然语言处理的根本问题.作为自然语言处理的一个应用方向,搜索也面临着这一根本问题.

 

搜索的未来,第二个表现应该是在内部能够有效的组织与管理各种知识,以适应人类的搜索请求,给出真正意义上的合适的信息(不多不少及时而准确).

 



[1]选自《面向自然语言处理的现代汉语短语信息库》*孙宏林  段慧明

 

[2] 选自《复指短语作主语、宾语的句子如何缩句》小学语文网

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值