为什么使用计算机处理自然语言如此困难?

荒木健治《自然语言处理初步》读书笔记 (1)

知识储备不足,造成计算机难以处理自然语言

  对于人类来说,不需要经过什么专门的训练,就可以下意识地学会使用语言。因此,很多人认为,让计算机学会自然语言也很容易。但实际上并非如此,究其原因,计算机能够使用自然与语言需要解决三个问题:

  一、理解人类的语言;
  二、针对所理解的内容,生成反馈内容;
  三、用人类的自然语言表达反馈内容。

  人类的语言存在歧义性,而歧义性带来的影响始终贯穿在这三个阶段之中。现在的计算机还不能很好地处理人类语言的歧义性,因此存在各种问题。

  此处以机器翻译为例来具体说明语言歧义性引发的问题。比如,让计算机翻译一句英文“I am a boy.”,这个句子很简单。如果事先告诉计算机译文就是“我是个男孩。”的话,计算机也能够很好地完成任务。

  然而,用这种方法让计算机记住所有英文的译文是不可能的。何况,“我是个男孩。”并不总是最佳译文。若不能根据前后文生成恰当的译文,系统的实用性就会大打折扣。我们看到 boy 一词,很难联想到“服务生”这一词义,可这恰恰是在饭店场景中最恰当的译词。

SHRDLU: 能够理解积木世界的对话系统

  早期的研究因为无法处理自然语言的歧义性,往往是在假定无歧义的条件下进行的。不能处理歧义的系统是没什么实用性的,因此被嘲讽为 Toy System (玩具系统)。这类研究的早期代表是 SHRDLU,是由当时就任麻省理工学院(MIT)的副教授 Terry Winograd 开发的。对话过程十分接近人类,参见下面的例子:

用   户:箱子里有什么?
SHRDLU:蓝色的三角锥和蓝色的箱子。

用   户:三角锥是靠什么支撑的?
SHRDLU:箱子。

用   户:有几个立方体不再箱子里?
SHRDLU:六个。

用   户:桌子能抓起积木吗?
SHRDLU:不能。

用   户:三角锥能支撑起三角锥吗?
SHRDLU:不知道。

会聊天的系统:ELIZA

  ELIZA的特点是,用户可以随意输入想说的话,系统能够给出相应的回答让谈话继续下去。 从这个角度讲,该系统具备很强的健壮性,能够适应任何话题。ELIZA是借助用户发言中的关键词来做答的,因此它并不需要去理解对方的谈话内容。实在找不到关键词的话就回答“您继续讲”之类的话,一样可以让谈话继续下去。参见下面的对话记录:

患  者:男人都是一路货色。
ELIZA:在哪些方面?

患  者:他们总让我心烦意乱。
ELIZA:您能举几个例子吗?

患  者:我男朋友让我来的。
ELIZA:您男朋友让您来的?

患  者:他说最近我很沮丧。
ELIZA:听到您沮丧我很遗憾。

患  者:我很不开心,真的。
ELIZA:您认为来这里能消除您的不开心吗?

患  者:我需要帮助,必须的。
ELIZA:对您来说得到帮助意味着什么?

患  者:也许我就可以和妈妈更好地相处。
ELIZA:跟我谈谈您的家庭。

患  者:我妈对我很好。
ELIZA:除了她以外,还有谁对您很好?

  ELIZA可以将对方发言中的“我”替换成“您”,“沮丧”替换成“遗憾”后作答。如果没有找到匹配关键词的话,就用“继续讲话”让谈话持续下去。因为人类自己听到类似的话题也会这样做,所以患者往往会将系统错当成心理医生。

  在ELIZA中,输出句的生成方法是通过规则来描述的。例如:

规则A:您@1打@2吗? -> 你喜欢@2吗?
应用: 您为什么打网球? -> 你喜欢网球吗?

  实际上,ELIZA缺乏表现知识的手段,也不真正理解人类的语言。用于心理咨询还可以蒙混一下,一旦用于真正需要有理解能力和推理能力的场合,其弱点就暴露出来了。不过,ELIZA表现出来的高健壮性,这一点是非常宝贵的。时至今日,ELIZA的方法广泛应用在网络聊天室、孤独老人的聊天对象、玩具及游戏上。
  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

许野平

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值