ZZ电脑，你好

最新推荐文章于 2024-10-01 23:05:47 发布

波特王子

最新推荐文章于 2024-10-01 23:05:47 发布

阅读量1.3k

点赞数

分类专栏：人工智能&机器学习文章标签：电话语言情感 ibm 算法自然语言处理

人工智能&机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

原文网址：http://www.ynxxb.com/content/2008-7/27/54628.aspx

早在10年前，比尔·盖茨就预言语言识别是电脑发展的下一个里程碑。在打造会说话机器的过程中，科学家对人类听、说语言的功能有了新认识。他们发现，自然的语言处理过程极其复杂，几乎涉及一个人的全部知识，因此很难用电脑模仿这一过程。经过近半个世纪的研究，会说话的电脑似乎仍然遥不可及。但语音识别却在其他地方得到有趣应用。

不久前，一位用户拨打某能源公司的免费电话，询问付费情况。他接通一个“互动声音答复”(IVR)系统。IVR是美国企业连接顾客的管道。所有企业都表示对消费者兴趣无限，却想方设法避免花钱请人和顾客交谈；通常每个人对人的电话花费公司5美元。而IVR一旦安装完毕，几乎不再花一分钱。

“如果有紧急状况，请按1，”能源公司的IVR说，“要使用自动服务或电话支付，请按2。”

用户按2，接着被要求输入账户号码，他照做了。由于一次欠费，账户上出现警报。“请稍等，”IVR说，“你的电话正转接服务代表。”这个声明紧接着英语中最常见的句子：“你的电话可能被监听。”

事实上，这个电话确实被监听。几个月后，我在BBN技术公司办公室再次听到这段对话录音。BBN是马萨诸塞州剑桥一家有60年历史的公司。负责开发BBN的“电话对话分析”软件Avoke的BBN副总裁乔·艾万向我展示，通过他们的技术如何能够自动记录电话对话，将声音转录成文字，使之便于搜索。

艾万是个外表粗犷的小个子，已在BBN工作两年。他将打电话者的声音曲线投射到房间另一头的墙上，解释说，“愤怒是一大特征。”企业可以用Avoke判断他们的客户什么时候生气了，以便改进他们的IVR。

服务代表接过对话，自我介绍叫埃里克，然后要打电话用户解释他的问题。埃里克带印度口音，语调偏高，发音清晰。他可能在班加罗尔工作，时薪几美元。虽然埃里克的报酬很可能取决于他解决问题的效率，但“公司不愿意在电话上花太多钱，”艾万说。打电话者的声音给人的印象是他是一位白人(尤其明显的是Dude中u的发音拖得老长)，年轻，大约30岁。

用户：嘿，问题是，哈，我收到一张退汇通知。

服务代表：嗯。

用户：所以，我给银行打电话。他们说并没有拒绝付款。于是，我就奇怪了，到底问题在哪里。你们这些家伙通过电话付费又要收钱，所以我才没有选择电话付费，所以我才选在网上支付，所以……

服务代表：OK。

用户：现在，我不知道到底是怎么回事。

打电话的用户听上去似乎很放松，但如果仔细听，会发觉他的声音中饱含无声的愤怒。

服务代表立刻查看用户的记录，发现他输入了错误账户号码。用户接受了代表的解释，但认为他不该负担退汇费用。“那么，伙计，退汇费呢，你们就不能做点儿什么。”代表解释说，那是另一家公司收取的。但用户似乎不予理睬。“我的意思是，我得通过电话支付，你们这些家伙又得收费，那么我……”

人们用两种方式表达愤怒。一种是“冷”愤怒，此时，措辞可能过分清楚，但语调温和。另一种是“热”愤怒，此时，声音变大，声调变高。

最初，打电话用户的愤怒是冷静的：

代表：OK，先生。让我向你解释……OK，关于上次你输入的信息，我很抱歉，你在网上输入错误。

用户：OK，我们已经讨论完那个问题。所以告诉我一点新东西……

代表：让我看看……啊……嗯。

用户：伙计，我不在乎收费的是哪家公司，反正是你们公司雇佣了那家公司，所以收钱的还是你们，所以你们应该免除电话支付的费用。

代表：先生，让我们的另一位工作人员向你解释，请稍等。

现在，打电话用户的愤怒已经“白热化”。他等着电话被转接，BBN仍在监听：

打电话用户：他妈的，我发誓。你们这些该死的婊子，你们可能根本没有给我转接，你们他妈的×××。你们会等很久的。你们这些臭婊子，我会找到你们，臭婊子。

约30秒钟后，我们听到一些噪音，嘭的一声，然后是咳嗽。不久，打电话的人挂断电话。

今年春天是HAL诞生40周年。HAL是阿瑟·克拉克笔下会说话的电脑，被大导演斯坦利·库布里克搬上银幕，是《2001：太空漫游》中关键角色。HAL有一种平静、美妙的声音——在影片中，它的声音比人类更温暖，但这却是一种假象。HAL自称1992年诞生于伊利诺伊州乌尔巴纳，它不仅谈吐完美，而且似乎也能完美地理解人类。1968年，当影片公映时，我还是一个9岁的孩子，从那之后我一直在期盼会说话的电脑出现。这也是许多电脑迷们共有的幻想。早在10年前，比尔·盖茨就预言语音识别将是电脑业下一个大飞跃。通过赋予电脑理解语音的能力，人类将结合两种最伟大技术：语言和工具制造。在信徒们看来，这一结合仅仅是时间问题。

40年后的今天，我们距离与电脑对话还有多远？今天，你可以打电话订购飞机票、转账。电话另一头受理业务的很可能只是一台电脑。如果你不想打字，还可以用听写软件把语音转录下来；这些技术都在逐步改进，已经相当可靠。如果你驾驶的是一辆带自动导航系统的汽车，你还可以听到几十种声音为你指导方向，声音的选择可依据你的喜好。在一台安装有Sync——福特、微软和Nuance(世界最大语音技术公司)合作项目——的汽车中，你可以用声音拨打电话、操控iPod，在双手忙碌的情况下，这一服务非常有用。最先进的IVR——比如Google的语音基础411服务——能够理解自然语言——你几乎可以像和人类一样交谈，而不必从一套语言菜单中挑选单词和句子。IVR设计师擅长创造声音角色，比如朱莉，负责接听美国铁路客运公司800个号码的自信的声音。这些声音可以根据公司喜好和品牌需要进行调整。拨打维珍移动公司服务热线，你将听到一个年轻女性的俏皮声音，听上去，她似乎正把脚翘在桌上接电话。

然而，这些语音技术的应用距离HAL——会说话电脑——的程度仍然遥远。电脑仍然无法通过著名的图林测试。这一测试由英国数学家阿兰·图林设计。目的是让一台电脑使与之对话的人误以为在和人类对话。即使在有限的运用上，语音识别技术也远不尽如人意。2007年，北美人累计花费430亿分钟和IVR交谈；根据一项调查，只有1/10的用户对IVR服务感到满意。调查发现，相比说话，许多顾客更喜欢按按钮，尤其是在输入个人信息的时候。因此，一些公司已决定改回使用按键音菜单。苹果电脑的Mac笔记本新操作系统Leopard可答复语音命令，对于有身体残疾的人这相当有用，但如果得整天听电脑声音Alex和同事的对话会把人逼疯。

当《2001：太空漫游》公映时，罗杰·施安克是一位22岁的大学生。施安克一直在研究如何让电脑模拟人类记忆和学习。今天，他已经没有当年的自信。是什么改变了他的想法？“有两件事情，”他说，“一是认识到人类对话中有相当部分是闲聊。”电脑已经被证实非常擅长人类薄弱的工作，比如迅速计算庞大数目，下象棋等等。但它们却不会人类一些最简单的行为，比如漫无边际地瞎聊。施安克解释说，另一个原因是，“在尝试模拟之前，我们没有意识到语言是如此复杂。”正如登月计划让我们认识到太空的一些本质一样，研制会交谈机器的过程也让科学家们对人类的听说能力有新的认识。正如哈佛大学认知科学家史蒂文·平克尔给我信中所说，“我所认识的人工智能研究者们的共识是，自然语言处理过程相当复杂，可能涉及一个人的全部知识。因此，很难在一台电脑上复制。”经过50年的研究，实现目标仍然遥遥无期。

说话从一股气流开始。横膈膜将空气从肺中推出，气体通过上气管的两片叫声襞的隔膜，使之振动，将气流转变成声波。声波撞击头内坚硬表面——牙齿、骨、上腭。通过改变口型和舌头位置，说话者发出元音和辅音，赋予语言声调和音色。

这个机械过程不难模仿。事实上，早在人工智能研究开始前，人类已经在尝试制造说话机器。18世纪末，一位叫沃尔夫冈·冯·肯佩伦的匈牙利发明家模仿人声道建造了一台说话机器。他用风箱模拟人肺，用风笛上的簧片替代声襞，用键盘控制“口型”。通过按不同的键，操作者可以让机器用多国语言说完整个语句。19世纪，肯佩伦的机器被查尔斯·维特斯通爵士改进。改进后的机器在伦敦展览时给年轻的亚历山大·贝尔(电话发明人)留下深刻印象，使他决心创造一种装置让听不到的人(贝尔的母亲和妻子都是聋子)也能正常说话。他没有成功，但是这些最初的尝试帮助创造了后来的电话。

20世纪，研究者发明了一系列电子说话机。最早的一台叫Voder，诞生于贝尔实验室——美国电报电话公司著名的研究机构——在1939年纽约世界博览会上展出。Voder没有簧片或风箱，用电发声。和肯佩伦的机器一样通过键盘操作。这种机器声音成为上世纪50年代电影中机器人的标准声音。后来，类似合成音效成为90年代前卫摇滚乐的主要元素。上世纪60年代初，贝尔实验室给一台电脑输入程序，让它演唱歌曲《黛西，黛西，答应我嫁给我》。应邀参观实验室的阿瑟·C·克拉克曾听这台机器演唱。后来他和库布里克把这首歌用在HAL死亡的场景。

听比说更难模仿。因为，其中涉及信号处理：把声音从空气波转变成电脉冲。人的外耳和耳道捕捉声波，将它们送进中耳，声波振动挤压3块小骨，被扩大。这一脉冲被传递进耳蜗，其中布满纤毛，它们将脉冲转变成电信号，然后通过神经通道传抵大脑，得到识别。

人耳极其敏感。研究发现，仅通过倾听到咖啡的声音，人就能辨别它的冷热。人耳尤其擅长识别其他人类的声音。我们能够从一群同时说话的人中找出熟悉的声音；我们能在嘈杂的音乐或室外环境中识别对话；我们还能通过声音辨别发声方向——这一切对电脑都相当困难。我们可以听到电话线另一头的笑声；人耳能识别嘴唇裂开发出的振动。因此，呼叫中心的接线员被命令无论受到什么样的语言侮辱都必须时时保持微笑。

上世纪五六十年代，科学家开始尝试语音识别。那时，人工智能研究先驱们试图模拟人类头脑理解语言的方式。但是，这要从哪里开始？连像“是”这样简单的概念在英语中也有几十种不同表达方式——“yes”、“ya”、“yup”、“yeah”、“yeayuh”、“yeppers”、“yessirree”、“aye aye”、“mmmhmm”、“uh-huh”、“sure”、“totally”、“certainly”、“indeed”、“affirmative”、“fine”、“definitely”、“you bet”、“you betcha”、“no problemo”和“okeydoke”——其中有什么规律？在Nuance公司的波士顿总部，语音工程师们绞尽脑汁试图预测人们表达“是”的所有方式，即使如此，还会出现意外情况。比如，设计师发现，在使用他们的语音软件时，美国南方人比北方人碰到更多困难。因为，当他们被要求回答“是”或“否”时，取决于IVR声音的性别，讲礼貌的南方人经常在“是否”之后加上“ma’am(女士)”或“sir(先生)”。而这是电脑程序无法识别的。同样的，语言并非静止的；规则在不断改变。研究者教导机器，当句子结束时如果语调升高，通常意味着提问。但是，电视剧《山谷女郎》让语言学家所谓的“高调谈话”风行一时，就是说故意提高声调，让一个陈述句听上去像是问句，现在这种谈话方式在美国无处不在。

上世纪七八十年代，许多语言研究者逐渐放弃掌握精确语言规则，而对语言识别采用概率方式。统计产生的“学习算法”——根据数据流建造模式——打破传统人工智能文化。IBM托马斯·J·华生研究中心的语音部门首席技术官大卫·纳哈莫告诉我，“依据概率算法的强力电脑运算打败规则运算。”一个语言识别软件，通过学习某单词出现的频率——包括它单独出现的频率和与其他单词一起出现的频率——能够得出合理的推测。这一系统无法理解单词句子的意思，但是如果给予足够数据和运算能力，它也许能在某些词汇量有限的情境中工作，比如医学笔录，或者从事高度精确的机器翻译。

1969年，贝尔实验室的约翰·皮尔斯给美国声学协会写了一封著名的书信，名叫《语音识别去向何方》。他在信中提出，制造无法理解语言意思的语音识别机器究竟有多大意义。无论算法的复杂程度，这样的机器仍将只是肯佩伦说话机器的摩登版本，一个没脑的机关。但是大多数研究者感觉，渺茫的希望总胜过毫无头绪。

1971年，美国国防部高级研究计划署(DARPA)决定花5年时间研究语音识别。4家机构——BBN、IBM、斯坦福研究院和卡内基·梅隆大学——被选为承包商，各家机构遵循同样指导方针，开发具有1000个单词量的语音识别器。之后，国防部又资助了可能用于军队的其他语音项目。其中之一包括一个能够将一种声音语言自动翻译成另一种声音语言的便携装置。(今天，这种装置已经被运用到伊拉克战场上，虽然其精确度有时不及50%。)另一个软件能够阅读外文新闻媒体，将它们翻译成英语。

除DARPA之外，电话和电脑公司也在投资研究语音识别，领军者包括贝尔实验室和IBM。电话公司希望用机器取代所有接线员，电脑公司希望赋予电脑语音基础的操作界面和自动听写功能，业界称之为“神圣工程”。但是，设计一个能在真实环境下始终如一地准确工作的语音识别器比人们预计的困难得多。直到上世纪90年代，语音识别产品才终于进入市场，但它们大多令人失望，很少达到广告宣传的功能。这一新兴产业陷入颠簸动荡期。行业领袖Lernout&Hauspie因为财务丑闻关门。

无论诞生于大学或公司，语音识别研究严重依赖数据样本(又称“文集”)的数量。“文集”越大，可输入学习算法的数据越多，猜测结果就越准确。IBM从各种可以想象的地方收集数据，包括实验室、广播电视和真实环境。华生研究中心的安迪·阿伦曾花许多个小时坐在汽车前座录制人们开车的情况，只为开发准确的汽车命令语音系统。他告诉我，之所以必须这样，因为“人们在汽车里说话的方式和他们在办公室说话的方式不同”。比如，我们在汽车里说话声音更大，这就是所谓的隆巴德效应——为了压制背景噪音而提高嗓音。阿伦采集的语音既用于识别器也用于声音合成器。“为识别器和合成器录音大不一样。”他说，“为合成器采集时，目的是教机器正确辨别未知发音。因此得输入尽量多的不同样本，让它了解美国人发某个音素(比如oo)的不同方式。而给合成器录音正相反，先采访许多发音标准的专业演说者，谨慎地选择一个你喜欢的声音。然后连续几小时录制他(她)的语音，让他(她)说大量常用单词和包含不同音素的语句。

BBN原本是一家声学工程公司，后来涉足语音识别领域。上世纪60年代，它负责设计了林肯中心的爱乐音乐厅，并带头研究飞机场分贝测量技术，促成了低噪音引擎的开发。1997年，BBN被GTE收购，后者又与贝尔亚特兰大公司合并为Verizon。2004年，一群BBN执行官和投资者买断控股权，使BBN再次独立。BBN用于培训其识别器的语音“文集”全部来自一个共享数据库“语言数据联盟”(Linguistic Data Consortium)。

拜访剑桥时，我观看一位语音工程师将一份半岛电视台阿拉伯语新闻转录成依稀可读懂的英语文本，一共只花了3分钟时间。另一次演示中，软件截获YouTube视频的一段声音，将其转换成文本，精确程度惊人。这一技术有希望在不久的将来使视频和音频变得像文本一样容易搜索。两项技术现在都已经投入市场。分别通过BBN的广播监控系统EveryZing和BBN的音频视频搜索引擎。此前，我还观看了BBN的英语对伊拉克阿拉伯语翻译器和它的多语言自动语音翻译器(MASTOR)。它们都相当好用。在IBM实验室，一个人用英语对一位伊拉克人说“我们来此为你们的镇子提供人道援助”。机器首先用英语重复语句，确保没有听错，然后MASTOR将句子翻译成阿拉伯语，并用合成声音讲出。伊拉克人用阿拉伯语回答；机器先重复阿拉伯语，然后翻译成英语语句。整个过程只花了约5秒钟，包含最先进的语音识别、声音合成和机器翻译技术。虽然目前的对话范围还限于伊拉克哨卡可能碰到的情境，但是，它们仍然代表了统计基础语音识别技术的胜利。

所有这些程序的一大缺陷是情绪认识。现有技术无法识别语句的节奏、语调和情绪。法国哲学家笛卡尔提倡分割理性和情感，认为语言是前者的载体。但事实证明，不带情感的语言根本就不是语言。理性地说，无论情感背景，一个单词该是什么意思就永远是什么意思，但事实并非如此。

语音识别是一个包括多个学科的领域，包括语言学、心理学、语音学、声学、电脑科学、工程学。今天的语音识别研讨会上，情感识别是一大热门话题。哥伦比亚大学电脑科学教授茱莉亚·赫西博格告诉我，她参加的上次研讨会上，3/4的演讲都是关于情感识别。研究专注于两方面：如何识别说话者的情感状态；如何合成更有感情表达力的声音。

伊丽莎白·西莱伯格是SRI国际(前斯坦福研究院)的语音部门高级科学家。她说，“说到带情绪表达，表演的语言和真实的语言有极大差别。”真正的愤怒，建立在多种说话方式之上，比表演的愤怒复杂得多。为实现更准确的情感识别，西莱伯格说，“我们需要收集9·11和咨询热线的录音。但是，由于隐私和所有权问题，我们无法获得那些资料。”

南加州大学的语音分析和翻译实验室，研究者们主要依据学生们搜集的电影和戏剧演员语音资料。实验室主任Shrikanth Narayanan是一位电气工程师，他的语音情感识别研究组成员大多是工程和计算机专业学生。一位学生正在研究当说话者面部表情和语音情绪冲突的情况。另一位在研究情绪状态会如何影响说话者的头部运动。研究过程本身可能相当枯燥。学生们一遍又一遍听语音表达各种情绪，给每段声音样本加上标注信息。比如，声音的力度，(正负情绪)配价，等等。愤怒和洋洋得意的语音力度相似，但配价不同。交谈时，人们可以依据上下文、面部表情和声调区别二者。但是，研究者只能依靠声音样本，一段声音需要至少3个人才能准确判断其情绪。

面部表情通常被认为是人人一致的。但是，迄今为止，Narayanan的实验室还没有发现类似的辨别情绪的世界通用语音线索。“情绪并非割裂的，”Narayanan说，“它们是连续的整体，很难判断某种情绪的终点和另一种情绪的开始。所以，研究对象从说话者扩大到接收者。”研究者认为，如果能够让电脑通过语音感知说话者的情绪状态，就可以让它做出相应的反应。比如，假如感觉到谈话者的困惑，电脑可放慢速度，如果感到愤怒，改用一种让人平静的声调。该技术的一个应用领域是电子游戏,从此可以根据玩家声音的压力自动调整到他的水平。Narayanan还提到模拟训练。如今许多公司使用类似电脑游戏的课程进行上岗前培训，他说，“软件可以通过你的声音判断你是否过分自信，或者感觉沮丧，从而进行相应调整。”这让我想到科幻小说《2001》中当HAL意识到宇航员们对它产生怀疑时决定杀死他们的情节。在和宇航员戴夫争夺飞船控制权时，HAL说，“戴夫从你的声音，我可以判断，你非常不安。为什么不吃一片药，休息一下。”

但是除了呼叫中心分析软件外，很难找到其他可靠的情绪识别应用。或许，真正的情绪识别已经超越概率统计算法的范围。科学家们还有更遥远的梦想——制造能感知情感的机器人，期望用于儿童和老年人看护。“这显然是非常遥远的，”Narayanan说。目前，我们只能满足于无情的机器。

语音基础的测谎器也有狭小运用范围。它们日益在美国各地警察局普及，其中多数由以色列Nemesysco公司制造。采用“层叠声音分析”技术，分析语音中约130个参数，判断说话者的心理状态。由于Neesysco不肯公布其软件算法，学术界对声音基础测谎器的可靠性深感怀疑。但另一方面，它们又确实属于专利私有技术，没有义务公开。所谓“层叠声音分析”技术在两次独立测试中败阵。Nemesysco的美国发行商说，测试的设计有问题。虽然如此，据发行商说，声音测谎软件在美国销售超过1000份，每份售价高达1.45万美元。主要顾客是执法部门，最近又被保险公司用于发现保险欺诈。

据我所知，目前唯一可靠的情绪识别产品是荷兰声音智能公司开发的冲突风险检测系统。鹿特丹、阿姆斯特丹等荷兰城市和英国的考文垂已经安装这套系统。伦敦和曼彻斯特在测试中。软件设计者之一彼得·范·亨格尔告诉我，软件的创意诞生于格洛林根大学的一个模拟内耳工作原理的电脑模式。他说，“我的一位同事尝试用这套内耳模式识别噪音中的谈话，结果发现，它能用于滤除环境噪音。”他们于2000年创建声音智能公司，最初专注于语音噪音分离和分析非语言声音。2003年，荷兰国营铁路和声音智能公司接洽。铁路公司希望在车站和火车上识别几种预示麻烦的声音(玻璃破碎、涂鸦喷绘、带冲突性的对话)。这一计划最后发展成侵略性语音监测系统。原理依据人们激动喊叫的声音：机器可识别声带超负荷拉伸时发出的声音，这只在真正冲突敌对的情境中才会出现。因此，最优秀的演员也只能尽量逼真地模仿愤怒；真正的愤怒会损害声音。

格罗林根城在酒吧汇聚的繁华地区安装了冲突危险检测器。街道两侧，相隔30米高挂着一个麦克风，并入已有的摄像机网络，和格罗林根警察局电脑相连。如果系统听到带冲突危险的声音，则向警察局发出警报，警方通过闭路监视器分析警报区域：如果必要，派遣警官到现场。

我以为这一技术的毛病会是假警报——太多嘈杂噪音被机器误认为冲突危险。但在格罗林根，情况正相反。“格罗林根是荷兰最安全的城市，”范·亨格尔悲哀地说，“几乎不存在犯罪。我们缺乏足够的暴力冲突来磨练这套系统。”