计算机自然语言理解和处理的分析与批处理(甲兵时代原创)

该贴无缘无故的被百度“锁定私有”,百思不得其解,经投诉,得到模糊结果,只好转投CSDN。百度经常私自限制用户发帖,许多人被迫逃离百度。看来“谷歌是美国人的通行证,百度是中国人的墓志铭”是说对了,“百度一下,你就知错!”

以下是投诉的答复:  

【百度空间】请查看投诉的处理意见
您好,您空间文章因以下原因被锁定为私有。Http://www.baidu.com/search/hi_faq.html#29
查看投诉处理结果: http://tousu.baidu.com/hi/view/74578
非专业认识,写得不好,请见谅。以下是正文:

计算机自然语言理解和处理分析

  ——给计算机一个依据,让机器人开口说话

  甲兵时代原创

  http://hi.baidu.com/cjiabing


  思考智能聊天机器人有一段时间了(现在日期是20100909),遇到的问题越来越多。搜索和下载了许多计算机与自然语言、人工智能和语言处理有关的资料,通过简略阅读,发现自己所走的每步都与当前的研究相吻合,现在总结如下:


  一、如何让计算机懂得我输入的话?

  ——专业叫做“计算机自然语言理解”,我最早的想法是利用批处理的截取技术提取每一个字,按规则提取两个、三个、四个和四个以上的词语,然后查字典,假如字典中存在该字词,那么就显示出来。这是基于“字典存在则存在”。这个字典可以使用任何TXT格式的新华字典,只要在行的开头能查到即可。但是许多字典都是十分落后的,它们无法收录更多的新词,意味着那些不在字典上的词语不能成为词语,也就无法被计算机理解了。


  这是利用了批处理的截取技术,它需要一个基础,就是“字典”或“词典”。没有这个基础你是无法让计算机去理解它是一个什么词语的,再说中国汉语里面存在一个字的词、两个字的词、三个及三个以上字的词,计算机不能平白无故就能判断输入的是否一个词语。计算机只是提供一种计算过程,计算的依据只能靠人类去提供。电脑不能自己给自己制定依据,除非它已经有了制定依据的基础,而这个基础还是人给的。


  将一个输入完整的句子切分成可以理解的词语,专业术语叫做“现代汉语文本的词语切分技术”。通过切分和查字典,批处理能够正常的识别“我吃饭”这种简单的句子。但遇到多个汉字组成的词语,批处理如何正确区别单个字词和多个字组成的词语呢?如:

  “我喜欢坐在面包车上一边吃面包一边看北京天安门门楼的门”。

  句子中,如何辨识“面包车”、“面包”、“面”和“包”这四个词语?通常的情况是“取长舍短”,也就是择优取三个字组成的“面包车”,而忽略后面三个词语。因为批处理读取存在顺序,前面的“面包车”和后面的“面包”可以得到辨识,而“面包”又可以与“面”和“包”得到辨识。因为后者(长字词)在句子中的位置与前者在句子中的位置是一致的,而前者(短字词)的位置集合包含了后者的位置集合。

  如:“我喜欢鸭肉”它总共有五个字符,每个字符依次偏移量(指针?)为:0-1-2-3-4。通过查字典得到关键词:我、喜欢、鸭肉、鸭、肉。其中“鸭肉”的位置在3和4,鸭在3,肉在4。辨识“鸭肉”和“鸭”、“肉”的关键就在于,“鸭肉”的位置3和4包含了“鸭”和“肉”两个单字词的位置。


  自然语言的切分技术是最基本的自然语言处理技术,它使得计算机能够“理解”自然语言。切分词语可以提取关键词,得到了关键词也就可以组织、搜索可供回答的内容了。


  二、计算机懂得“理解”之后就是做出相应的反应——回答。

  那么计算机如何回答问题?回答问题仍然需要一个依据,这个依据就是知识。而知识仍然是一部辞典。比如:你问计算机,李白是什么朝代的人?计算机不能平白无故的说是唐朝的,因为它脑子里压根就没有“唐朝”这个词,再说,计算机没有灵魂,它无法自行表达,计算机的表达需要规则。


  为了回答问题,计算机需要有足够的常识,有一定的文化素养,因此,计算机需要一个知识库,包括常识和百科知识。而这个知识库必须是规范的,可方便计算机提取的数据库。


  再进一步,你问计算机,你叫什么名字?这时,计算机去查知识库是查不到的,因为我们问的是计算机本身的名字,那么它首先必须知道自己的名字它才能回答你。这样,计算机需要一个它自己的信息库,以便储存一些它个人的信息,比如姓名、性别、经历、喜好等等。


  但无论知识库还是个人信息库,它都只是提供了一种回答的答案,而最终如何回答,仍需计算机的代码支持。


  三、计算机自己组织语言表达。

  ——这是最困难的技术。因为计算机没有灵魂,它无法表达自我,找不到简单的依据,让它表达复杂的思想。

  我们提几个问题让计算机回答:


  你叫什么名字?

  我在那路边捡到一分钱。

  请写一份请假条。

  多么漂亮的水晶球啊!我好想买一个。


  ——“你叫什么名字?”

  这种问题只有一个答案,很容易回答,直接显示名字就可以了。假如再问,你喜欢什么运动?也可以罗列关键词。专家系统最拿手这类问题了。


  ——“我在马路边捡到一分钱”

  这种问题回答的方式没有统一标准,不同的人不同的情景有不同的回答。最常见的回答就是反问式和评价式的回答。前者会问“捡到多少钱?”,后者会说“真幸运啊!”。但实际上,你要计算机如何回答?


  根据关键词反问是很容易的,但做评价就需要逻辑推理了,而逻辑推理需要更复杂的规则支持。比如:“你如何看待钓鱼岛问题?”计算机只能搜索知识库,抓取内容显示。又如:“请你谈谈你对科尔伯格的道德两难的理解。”一个真正的问题是,计算机无法自己组织语言回答。即使你叫计算机用自己的语言解释下“太阳出来了路面干了”这句话,计算机也无法实现。


  一系列的词语按照一定的规则顺序组成语句,或者,有意义的句子是由许多关键词按照规则和顺序组成的。那么,计算机是否也可以自己罗列关键词,然后按照规则和顺序组成句子呢?如上句,提取关键词得到:太阳、出来、路面、干了。单纯是关键词的罗列,已经使其变成有意义的句子了。但如果需要有效的讲解,计算机还需要增加更多的关键词,比如:照射、晒、蒸发、水分,等等。这是一种联想的方法得到的关键词,实质上,是由“太阳”和“路面”两个关键词共同匹配的来的。这些共同匹配的关键词我们称为第二关键词,用于丰富句子和增加内容。还有些第二关键词来自反义、同义等等。词语扩充的过程如下:


  太阳——??——干了:照射、蒸发

  太阳——??——路面:水分


  那么,这些词语又是从哪里来?来自检索知识库。比如:


  太阳照在桑干河上;

  那天也许是整个夏天里最热的一天,太阳光打着弯儿,路面干得直冒烟。 ;

  正好秋日当午,路面干了,森林里凉爽的风吹在脸上;

  雪就化得快了,太阳一晒,路面干得也快;


  得到关键词之后,词语之间按照什么样的规则才能组成句子,这仍是个问题,需要更复杂的计算机处理技术。


  ——“请写一份请假条”。

  同上:如何让计算机组织自己的语言?计算机检索知识库得到“请假条”的写法。然后获得关键词:请假条、尊敬的、您好、因、需请假、天、请批准、请假人、年月日……只要按照顺序拼接关键词计算机的语言组织就算基本过关。假如设定一种

  “万能句子”——主谓宾——只要将句子按照这个模式填进去,得到句子的主干,再设定其他规则,让它填进去更多的虚词,那么计算机也是能够实现“语言组织能力”的。

 

  ——“多么漂亮的水晶球啊!我好想买一个。”

  我们前面涉及到的都是一个单独的句子,这里涉及到两个句子。计算机能够理解这种复杂的句子吗?假如是带有关联词的复句,因为有固定的模式,计算机还好处理,但平常的句子前后句都是缺乏必要的关联的,计算机理解起来就难了。例句正是这种情况。计算机无法理解“多么漂亮的水晶球”和“我好想买一个”之间存在何种关系。虽然前半句属于对事物的赞美,而后半句属于意愿的表达,我们人类无需动脑就知道它们的关系,但计算机没有对此“理解”的“依据”。因为它无法理解一个个体以及它的需要。


  就算计算机能够理解复合句,计算机也无法表达复合句。因为句子之间存在一定的逻辑关系,而这种逻辑并非科学上的严格推理,而是生活上的简单推理。


  处理的办法就是将复合句化解为单独句,然后将单独句化解为关键词。在我们的理解中,“多么漂亮的水晶球啊!我好想买一个。”是一个完整的句子,而在计算机理解中,它是两个完全独立的句子:“多么漂亮的水晶球啊!”和“我好想买一个。”它们之间的意义只能靠人工进行理解。


  四、计算机如何处理段落?

  前面几个处理的方法都是“化整为零”,处理段落亦如此——想办法将段落化解为句子,将句子化解为关键词。关键词可以查字典得到,关键词罗列就变成句子意思了。我们需要重新组装“主谓宾”这种“万能句法”,使得关键词能够组成最简单的句子。


  我们来看一下一段文字:


  “我绕着街道和房屋飞,我能看到别人的屋子,和屋里的女人。有人驱赶我,我飞向天空。这时我看到地上有许多人争夺绿宝石,我也想去抢,可是却不敢。于是我飞到高高的冰山上,这山叫风凰石山,我在上面捡了几块冰,有白的、有红的、有绿的。后来我惊奇地发现,冰是宝石:白的是钻石,红的是红宝石,绿的是绿宝石,而别人抢的宝石只不过是糖块。这是什么,是一个童话故事吗?”


  以“化整为零”法解读,将段落、复句全部化解为单句:


  我绕着街道和房屋飞。

  我能看到别人的屋子。

  和屋里的女人。

  有人驱赶我。

  我飞向天空。

  这时我看到地上有许多人争夺绿宝石。

  我也想去抢。

  可是却不敢。

  于是我飞到高高的冰山上。

  这山叫风凰石山。

  我在上面捡了几块冰。

  有白的。

  有红的。

  有绿的。

  后来我惊奇地发现。

  冰是宝石。

  白的是钻石。

  红的是红宝石。

  绿的是绿宝石。

  而别人抢的宝石只不过是糖块。

  这是什么。

  是一个童话故事吗?


  仿佛一首诗啊。再将单句化解为关键词:


  我 (绕着 街道 和 房屋) 飞。

  我 能看到 (别人的)屋子。

  (和屋里的) 女人。

  有人 驱赶 我。

  我 飞向 天空。

  这时 我 看到 (地上) (有 许多人 争夺 绿宝石)。

  我 也想 去抢。

  可是 却不敢。

  于是 我 飞到 (高高的)冰山上。

  这山 叫 风凰石山。

  我 在上面 捡了 几块冰。

  有白的。

  有红的。

  有绿的。

  后来 我 (惊奇地)发现。

  冰 是 宝石。

  白的 是 钻石。

  红的 是 红宝石。

  绿的 是 绿宝石。

  (而)别人 抢的 宝石 (只不过) 是 糖块。

  这 是 什么。

  是 (一个童话) 故事 吗?


  因为句子不是标准句子,让计算机完全理解是困难的,特别是虚词组成的句子,如“可是却不敢”,计算机只能将它们恢复到单字的层面。

  因此,如何让计算机组织最简单的句子——造句——这是一个关键性的技术。这个技术需要更多的语言学和计算机技术的支持。


  五、中文语法的不完全适应。

  汉语语法是近代引进的,而汉语近代以前是没有什么语法的,白话文还可以按照通常的口语进行,而文言文、古诗等等就纯粹缺乏统一的语法了。汉语在“词法”和“句法”上的关注在古诗中出现得比较多,但古诗本身就是一个不遵守语法的典型例子。古诗中经常出现倒装句、主语往往被省略、存在大量的情景跳跃……对计算机来说,古诗简直和计算机一样在堆砌辞藻、一会东一会西的胡言乱语。但实际上,古诗的“胡言乱语”是有意义的,而计算机无法做有意义的表达。


  对照汉语与英语,英语在语法上是比较完善的,看看英语字典,每个单词都标有词性、常用搭配,而汉语词典中的字词,一般只标有音标和词义。至于词性则非常少。原因与词的用法混乱或多样有关。比如一个“花”字,它可以是植物的花朵,也可以是两眼昏花,可以是花钱如流水,也可以是姐妹花……它可以是名词、动词、形容词、副词……英语单词可以有几万个不算多,因为它们很少重复,但汉语常用字也就是两千多,它们横着可以用,竖着也可以用,甚至揉成一团了还可以用。


  它们可以放在句子开头,也可以中间,也可以句尾,也可以单独使用,甚至颠三倒四的使用。反正中国人对语言的理解能力很强,它放在句子那个地方都无所谓,中国人都能够解读出更多的意思。从语言方面讲,中国人的理解能力是非常强的,但中国人也是说话最不靠谱的,最善于误解的。


  比如,一个朋友跟我说,他写了篇论文交给领导,领导接到论文还没翻看,第一句话问的是“是你自己写的吗?”很有深意。领导的意思可能是担心他从网上下载的,也可能是想核实一下到底是不是他写的,或者纯粹随口问问,但我朋友往心里去了,是不是领导怀疑我,不相信我能写?有如此想法很正常,受到人们的知识水平、经历等等影响,同样一句话不同的人在不同的情境下会得到不同的理解。简单的汉语让我们想得太多了。


  从以上事例看来,在普通人都难以理解的汉语如何让计算机去理解呢?计算机又如何找到一条可以让人类理解的处理方法?这是有相当大的难度的。要从有着上千年历史的纷繁复杂的汉语里总结出一些规律或模式以供计算机使用这个任务是多么的艰巨。


  但即使再难,只要我们能理解的计算机为什么不能理解?我们有灵魂、有思想、有感情,那都是建立在生物的基础上,同样为生物的飞禽走兽为什么没有思想?或者说思想为什么没有人类复杂?原因还是在于信息的积累,在于文明,而这一切都是建立在对语言文字的利用上。我们利用语言文字而使得文明得到传播,传播的文明促进了人类智慧的发展。同样,计算机处理信息,它的基础也是语言文字符号,在我们理顺了计算机语言之后,特别是计算机自然语言的处理之后,计算机的智能终会获得实质性的发展。

  六、批处理在人工智能上能有多大作为?

  我只懂得批处理(DOS),甚至连C和VB都不懂,更不用谈其它LISP、PROLOG等等之类的语言,因此我只能从批处理来谈人工智能。

  假如只是简单的FIND——搜索,批处理是可以满足要求的,前段时间也写过一个可以根据提问搜索知识库做简单回答的程序。因为知识库不是一般人能够建立的,特别是程序也没能完善,所以也就作罢了。

  试用了一下机器人小I,自认为批处理在某些方面能够做得比它好,至少回答的答案不会那么“穷困落魄”。

  当前已经在自制的字典支持下实现对输入的句子的理解,能够复述,暂时不能讲解。正在思考的是如何造句——让其根据关键词造出一个有意义的句子来。

  在计算机自然语言理解和处理的初步方面,批处理能够以简单有效的方法实现,但假如形成功能,批处理恐怕无法胜任。

  从文本解析技术来说,批处理实现起来非常困难,往往需要借助第三方,如SED。而自然语言的处理基本上就是文本解析技术的大会战。因此,从专业特长上说,批处理并不适合这项工作。

  从处理效率来说,简单的语句和数据库批处理能够应付,一个完善的数据库动辄上万行,批处理处理起来容易失去响应。但在研究的初始阶段,批处理可以为了实现功能而忽略效率。在研究的中后期,只能考虑其他语言了。

  批处理在描述上只有条件(IF)和循环(FOR)两种方式,受到诸多因素影响,无法如意地实现功能。批处理本身提供的命令非常有限,而在有限的条件里实现功能强大的程序是多么的吃力。

  但即使如此,从一个探索的角度来看,批处理还是能够做一些基础工作的,至少所有以上观点都是从批处理的探索实践中总结出来的。在批处理学会“造句”之前,我仍将以批处理来进行探索,除非我了解到其它语言能够胜任,或者批处理实在无法突破,而我有更多的时间和机会,我将学习其它的计算机语言,继续进行这一项有意义的研究。

  有兴趣志于此的朋友,可以一起探索。以下是一个有关的帖子,不过只是在初步探索之中:

  批处理版聊天机器人:

  http://www.bathome.net/thread-9183-1-1.html

  七、计算机凭什么“理解”自然语言?(补充内容)

  想到一些很关键的问题,我们写一些代码,然后让代码去运行,运行之后计算机就能理解我们的意思了。我们往往着重在写代码这件事情上,但我们忘记了计算机凭什么“理解”自然语言这件很关键的事情,否则,代码写了一堆,结果发现计算机还是什么都不知道,那时就糟糕了。

  百度有个广告词“百度一下你就知道”,凭什么百度知道?其实百度什么都不知道,它知道的东西都在人家那里,它自己肚子里没有墨水。但它难能可贵的地方就是,“我自知我无知”,它知道自己没有,但它知道谁有,它可以为你提供搜索结果。所以,百度一下你就知道,似乎它就是个万事通。

  计算机也是如此,计算机它不知道自己有什么东西,它只能知道谁那里有什么东西。从自然语言的理解上来说,计算机不能平白无故的就可以理解我们人类的语言。就好比从地里出土一块古碑文,写着与现代不同的文字,基本上没有人见过,即使专家也说不出个之乎者也来,那么,你叫计算机去辨认,计算机凭什么辨认呢?你 要辨认必须懂得辨认的技术和知识。人类尚不懂得,人类造出来的计算机现在怎么懂得?除非计算机是神仙了。

  算法是计算机的灵魂,算法的基础就是数据和规则。数据是被处理的信息,而规则就是处理的方法。计算机本身不提供数据,也不提供规则,它只是按照人类提供的数据和规则,以一定的算法来处理信息。从这个角度来看计算机自然语言的理解和处理,我们不能指望计算机平白无故的就能理解我们说的每句话,除非我们提供足够的数据和规则。那么目前我们为计算机提供了什么数据和规则呢?几乎没有,我们提供的数据是那样的庞大而有限,我们提供的规则又是那么的脆弱而简单。在这种情况下,让计算机实现智能化是非常的困难的。因此,如使得计算机能在自然语言上走得更远,我们还需要做两件基础工作,那就是提供足够的原始数据信息和丰富的处理规则。

  本篇为原创,转载请注明出处。 http://hi.baidu.com/cjiabing 甲兵时代,为你服务。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
7D互动游戏影院引领先锋-深圳精敏数字JMDMdoc,7D互动影院升级常见问题回答:问题1、假如的5D影院升级成7D需要更换那些东西?答:需要3部分:1、JMDM 7D互动娱乐系统:5D动感平台需要加装JMDM 7D互动枪及收发配件;投影机正前方需要安装红外定位头两个。2、JMDM 7D动感座椅与特效控制系统:原来使用JMDM系列控制系统的,可以平滑升级7D,实现完美向下兼容5D座椅和特效,向上兼容7D互动游戏。3、主动投影播放系统:投影机需要换成主动式的投影机,眼镜也需要换成主动式眼镜;电脑上面需要安装WIN7系统,和JMDM 7D游戏软件。问题2:贵公司的7D互动娱乐影院包括那些东西?   答:1、JMDM 7D互动娱乐系统: 7D互动影片、7D互动枪及收发配件、JMDM 7D互动游戏控制软件(包含加密狗2个)、红外定位头。2、JMDM 7D动感座椅与特效控制系统:JMDM 7D控制器、控制软件即加密狗;3、主动投影播放系统:主动投影仪1台、主动3D眼镜6副、WIN7系统的电脑1台。4、1个5D动感平台6座座椅。问3:贵公司的7D互动影片总计有多少部? 答:我公司的7D互动影片目前有3部,分别是决战钓鱼岛 ,潘多拉星球之战,,恐怖鬼屋 。凡购买我们公司7D系统的客户,我公司均会在一年内免费提供2部影片。问4:安装7D控制系统后还能继续放5D电影吗? 答:可以。我公司特有的7D控制系统向下兼容5D、4D影院,使你的5D动感影院即可玩7D动感影院。又可播放5D电影。我公司还可提供更多的5D影片和动作文件。问5:7D电影和5D电影最大的不同点是? 7D电影和5D电影最大的不同是你既是电影的观看者,又是电影的的参入者;你既可感受立体动感电影的惊险,又可提互动装备和电影里面角色进行作战,也可和亲朋好友共同作战,共享成功。你成了电影里的一份子,你就是主角!脉搏随着画面跳动,心跳和着7D互动枪扫射的节拍...问6:7D影片多少钱一部?答:7D影片不单独卖,这个是随一套7D互动系统及动感座椅一起工作的,不能单独工作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值