来了!阿里智能人机交互的神秘核心技术解析

本文详细介绍了阿里巴巴在智能人机交互领域的核心技术,包括自然语言理解、智能问答、智能聊天和对话管理。自然语言理解通过深度学习模型和规则融合提升准确率,智能问答利用阅读理解解决复杂问题,智能聊天采用检索和生成模型的融合,对话管理则实现了任务中断和返回。阿里巴巴的智能服务产品如阿里小蜜、店小蜜和云小蜜已经在多个场景中广泛应用。
摘要由CSDN通过智能技术生成

导读:过去20多年,互联网及移动互联网将人类带到了一个全新的时代,如果用一个词来总结和概括这个时代的话,“连接”这个词再合适不过了。这个时代主要建立了四种连接:第一,人和商品的连接;第二,人和人的连接;第三,人和信息的连接;第四,人和设备的连接。

来了!阿里智能人机交互的神秘核心技术解析

“连接“本身不是目的,它只是为“交互”建立了通道。在人机交互(Human-Computer Interaction)中,人通过输入设备给机器输入相关信号,这些信号包括语音、文本、图像、触控等中的一种模态或多种模态,机器通过输出或显示设备给人提供相关反馈信号。“连接”为“交互”双方架起了桥梁。

“交互”的演进方向是更加自然、高效、友好和智能。对人来说,采用自然语言与机器进行智能对话交互是最自然的交互方式之一,但这条路上充满了各种挑战。如何让机器理解人类复杂的自然语言?如何对用户的提问给出精准的答案而不是一堆候选?如何更加友好地与用户闲聊而不是答非所问?如何管理复杂的多轮对话状态和对话上下文?在阿里巴巴,我们从2014年初开始对智能对话交互进行探索和实践创新,研发成果逐步大规模应用在了智能客服(针对阿里巴巴生态内部企业的阿里小蜜、针对阿里零售平台上的千万商家的店小蜜,以及针对阿里之外企业及政府的云小蜜等)和各种设备(如YunOS手机、天猫魔盒、互联网汽车等)上。

本文将对阿里巴巴在智能对话交互技术上的实践和创新进行系统的介绍。首先简要介绍智能对话交互框架和主要任务;接下来详细介绍自然语言理解、智能问答、智能聊天和对话管理等核心技术;然后介绍阿里巴巴的智能对话交互产品;最后是总结和思考。强烈建议收藏细看!

本文作者:孙健,李永彬,陈海青,邱明辉

1 智能对话交互框架

典型的智能对话交互框架如图1所示。其中,语音识别模块和文本转语音模块为可选模块,比如在某些场景下用户用文本输入,系统也用文本回复。自然语言理解和对话管理是其中的核心模块,广义的自然语言理解模块包括对任务类、问答类和闲聊类用户输入的理解,但在深度学习兴起后,大量端到端(End-to-End)的方法涌现出来,问答和聊天的很多模型都是端到端训练和部署的,所以本文中的自然语言理解狭义的单指任务类用户输入的语义理解。在图2所示的智能对话交互核心功能模块中,自然语言理解和对话管理之外,智能问答用来完成问答类任务,智能聊天用来完成闲聊类任务。在对外输出层,我们提供了SaaS平台、PaaS平台和BotFramework三种方式,其中Bot Framework为用户提供了定制智能助理的平台。

来了!阿里智能人机交互的神秘核心技术解析

图1 智能对话交互框架

2 智能对话交互核心技术

智能对话交互中的核心功能模块如图2所示,本部分详细介绍智能对话交互中除输出层外的自然语言理解、智能问答、智能聊天和对话管理四个核心模块。

来了!阿里智能人机交互的神秘核心技术解析

图2 智能对话交互中的核心功能模块

2.1自然语言理解

自然语言理解是人工智能的AI-Hard问题[1],也是目前智能对话交互的核心难题。机器要理解自然语言,主要面临如下的5个挑战。

(1)语言的多样性

(2)语言的多义性

(3)语言的表达错误

(4)语言的知识依赖

(5)语言的上下文

表1 上下文示例

U:上海明天的天气

A:上海明天天气……

U:后天呢

U:那你嫁给我吧

A:我妈说我还小

U:我问过你妈了她说同意你嫁给我

继续延续问天气

如何正确的把闲聊接下去

注:U指用户(user),A指智能体(agent)。下同。

整个自然语言理解围绕着如何解决以上难点问题展开。

2.1.1自然语言理解语义表示

自然语言理解的语义表示主要有三种方式[2]。

(1)分布语义表示(Distributional semantics)

(2)框架语义表示(Frame semantics)

(3)模型论语义表示(Model-theoretic semantics)

在智能对话交互中,自然语言理解一般采用的是framesemantics表示的一种变形,即采用领域(domain)、意图(intent)和属性槽(slots)来表示语义结果,如图3所示。

来了!阿里智能人机交互的神秘核心技术解析

图3domain ongology示意图

在定义了上述的domain ontology结构后,整个算法流程如图4所示。

来了!阿里智能人机交互的神秘核心技术解析

图4 自然语言理解流程简图

2.1.2意图分类

意图分类是一种文本分类,主要分为基于规则的方法、基于传统机器学习的方法和基于深度学习的方法,如CNN [3]、LSTM [4]、RCNN [5]、C-LSTM [6]及

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值