人机交互如何改变人类生活 | 公开课笔记-CSDN博客

本文链接：https://blog.csdn.net/guleileo/article/details/80976428

本文介绍了人机交互的发展，特别是对话系统和上下文理解技术在提升用户体验上的关键作用。文章通过实例展示了如何通过补全与指代消解、对话主题式补全等方法提高机器理解用户意图的能力。此外，还探讨了NLU（自然语言理解）的重要性和模块架构，以及未来人机交互的潜在发展方向，包括多模态情感识别和多轮对话的智能化。文章还分享了实际应用案例，如AIOT平台在新零售领域的应用，以及人脸和语音识别技术如何增强交互体验。

摘要由CSDN通过智能技术生成

640?wx_fmt=jpeg

作者 | 翁嘉颀

编译 | 姗姗

出品 | 人工智能头条（公众号ID：AI_Thinker）

【导读】在人机交互过程中，人通过和计算机系统进行信息交换，信息可以是语音、文本、图像等一种模态或多种模态。对人来说，采用自然语言与机器进行智能对话交互是最自然的交互方式之一，但这条路充满了挑战，如何机器人更好的理解人的语言，从而更明确人的意图？如何给出用户更精准和不反感的回复？都是在人机交互对话过程中最为关注的问题。对话系统作为NLP的一个重要研究领域受到大家越来越多的关注，被应用于多个领域，有着很大的价值。

本期大本营公开课，我们邀请到了竹间智能的 CTO 翁嘉颀老师，他将通过对技术方法通俗易懂的讲解和Demo 演示相结合的方式为大家讲解本次课题，本次课题主要包含一些几个内容：

1.上下文理解技术——补全与指代消解

2.上下文理解技术——对话主题式补全

3.NLU的模块架构及如何利用NLU的基础信息

4.Live Demo 演示

5.人机交互的案例分享与研究发展趋势

6. Q & A

以下是公开课文字版整理内容

▌前言

我从1982年开始坐在电脑前面，一直到现在。上一次做人工智能是27年前，大概1991年的时候，那个时候做人工智能的人非常可怜，因为做什么东西都注定做不出来，随便一个机器学习的训练、神经网络训练需要20天，调个参数再重新训练又是20天，非常非常慢。电脑棋类我除了围棋没做以外，其他都做了，本来这辈子看不到围棋下赢人，结果两年前看到了。后来做语音识别，语音识别那个年代也都是玩具，所以那个年代做人工智能的人最后四分五裂，因为根本活不下去，后来就跑去做搜索引擎、跑去做金融、跑去做其他的行业。

这次人工智能卷土重来，真的开始进入人类生活，在周边地方帮上我们的忙。今天我来分享这些人机交互的技术到底有哪些变化。

640?wx_fmt=jpeg

先讲“一个手环的故事”，这是一个真实的故事，我们在两年前的4月份曾经想要做这个，假设有一个用户戴着手环，“快到周末了，跟女朋友约会，给个建议吧”。背后机器人记得我的一些事情，知道我过去的约会习惯是看电影，还是去爬山，还是在家打游戏、看视频。如果要外出的话，周末的天气到底怎样，如果下大雨的话那可能不适合。

640?wx_fmt=jpeg

而且它知道我喜欢看什么电影、不喜欢看什么电影、我的女朋友喜欢看什么、不喜欢看什么，它甚至知道我跟哪一个女朋友出去，喜欢吃什么，不喜欢吃什么，餐厅的价位是吃2000块一顿，还是200块一顿，还是30块一顿的餐馆，然后跟女朋友认识多久了，刚认识的可能去高档一点的地方，认识6年了吃顿便饭就和了，还有约会习惯。

有了这些东西之后，机器人给我一个回应，说有《失落的世界2》在某某电影院，这是我们习惯去的地方，看完电影，附近某家餐馆的价位和口味是符合我们的需要。我跟它说“OK，没问题”，机器人就帮我执行这个命令，帮我买电影票、帮我订餐馆、周末时帮我打车，甚至女朋友刚认识，买一束花放在餐馆的桌上。

我们当时想象是做这个。这个牵扯到哪些技术？第一，有记忆力，你跟我讲过什么东西，我能记得。还包括人机交互，我今天跟它讲“周末是女朋友生日，订个好一点的吧。”它能帮我换个餐馆，能理解我的意思。

如果手环能够做到这个样子，你会觉得这个手环应该是够聪明的，这个机器人是够聪明的，能够当成你的助手陪伴你。最后，我们并没有做出来，我们做到了一部分，但是有一部分并没有做到。

我们公司的老板叫Kenny，他之前是微软亚洲互联网工程院副院长，负责小冰及cortana的，老板是做搜索引擎出身的，我以前也是做搜索引擎的，做了11年。左下角的曹川在微软做搜索引擎。右上角在微软做搜索引擎。右下角在谷歌做搜索引擎。目前的人工智能很多是搜索引擎跑回来的，因为搜索引擎也是做语义理解、文本分析，和人工智能的文本分析有一定的相关度。

▌人机交互的发展

一开始都是一些关键词跟模板的方式，我最常举的例子，我桌上有一个音箱，非常有名的一家公司做的，我今天跟这个音箱说“我不喜欢吃牛肉面”，音箱会抓到关键词“牛肉面”，它就跟我说“好的，为您推荐附近的餐馆”，推荐给我的第一个搞不好就是牛肉面。我如果跟它说“我刚刚吃饭吃很饱”，关键词是“吃饭”，然后它又说“好的，为您推荐附近的餐馆”，所以用关键词的方式并不是不能做，它对语义意图理解的准确率可能在七成、七成五左右，也许到八成，但有些东西它是解不了的，因为它并不是真的理解你这句话是什么意思。所以要做得好的话，必须用自然语言理解的方式，用深度学习、强化学习，模板也用得上，把这些技术混搭在一起，比较有办法理解你到底要做什么事情。

640?wx_fmt=jpeg

这个Chatbot的演变历程我们不细讲，但我今天要表达，在人机交互里面或者语义理解上面，我们分成三个层次。

最底层的叫自然语言理解，举例来说，我现在想说“我肚子饿”跟“我想吃东西”这两句话的句法、句型不太一样，所以分析的结果也不太一样，这是最底层的。

第二层叫“意图的理解”，这两句话虽然不一样，但它们的意图是一致的，“我肚子饿”跟“我想吃东西”可能代表我想知道附近有什么餐馆，或者帮我点个外卖，这是第二层。目前大家做的是第一层跟第二层。

其实还有第三层，第三层就是这一句话背后真正的意思是什么，比如我们在八点上这个公开课，我突然当着大家的面说“我肚子饿”跟“我想吃东西”，你们心里会有什么感受？你们心理是不是会觉得我是不是不耐烦、是不是不想讲了。你的感受肯定是负面的。今天如果我对着一个女生说“我肚子饿”，女生心里怎么想？会想我是不是要约她吃饭，是不是对她有不良企图。目前大家离第三层非常遥远，要走到那一步才是我们心目中真正要的AI，要走到那一步不可避免有情绪、情感的识别、情境的识别、场景的识别、上下文的识别。

640?wx_fmt=jpeg