【人工智能】2017年中国人工智能技术——智能语音应用报告

最新推荐文章于 2022-12-13 16:15:00 发布

产业智能官

最新推荐文章于 2022-12-13 16:15:00 发布

阅读量1.7w

点赞数 3

2016年是人工智能（AI）元年，智能语音技术作为AI应用最成熟的技术之一，在智能家居、智能车载、智能可穿戴领域有了迅猛发展。

鉴于此，科技巨头、初创公司纷纷从不同维度布局相关产业链，未来面向物联网的智能语音产业链的形成将引起商业模式的变化。

一、智能语音技术取得重大突破，商业化落地成为可能

◈ 智能语音技术是人工智能产业链上的关键一环

人工智能产业链主要分为三个层次。

底层是基础设施，包括芯片、模组、传感器，以及以大数据平台、云计算服务和网络运营商。这部分参与者以芯片厂商、科技巨头、运营商为主。

中间层主要是一些基础技术研究和服务提供商。包括深度学习/机器学习、计算机视觉、语音技术和自然语言处理以及机器人等领域。这一模块需要有海量的数据，强大的算法，以及高性能运算平台支撑。代表性企业主要有BAT、科大讯飞、微软、亚马逊、苹果、facebook等互联网巨头和国内一些具有较强科技实力的人工智能初创公司。

最上层是行业应用。大致分为2B和2C两个方向。2B的代表领域包括安防、金融、医疗、教育、呼叫中心等。2C的代表领域包括智能家居、可穿戴设备、无人驾驶、虚拟助理、家庭机器人等。相关代表性企业既包括互联网科技巨头，也包括一些初创厂商。

◈ 中国人工智能市场规模持续增长，智能语音将居于重要地位

◈ 智能语音技术成熟，商业化应用成为可能

深度学习、高性能运算平台和大数据是人工智能技术取得突破的核心助推力。深度学习端到端解决了特征表示与序列影射的问题，使得人工智能的性能得到了快速提升；而互联网时代海量的数据又不断为算法模型提供了训练材料，同时，云计算的兴起和高性能的运算平台为智能化提供了强大的运算能力和服务能力。

在语音识别率方面，百度、谷歌，科大讯飞等主流平台识别准确率均在96%以上，稳定的识别能力为语音技术的落地提供了可能。

◈ 商业场景落地的重要环节语音交互有了重大突破

与此同时，语音交互的核心环节也取得重大突破。语音识别环节突破了单点能力，从远场识别，到语音分析和语义理解有了重大突破，呈现一种整体的交互方案。

二、智能车载、智能家居及可穿戴设备风潮的兴起加速语音技术落地

◈ 智能语音市场整体处于启动期，智能车载，智能家居，智能可穿戴等垂直领域处于爆发前夜

◈ 智能车载市场前景广阔，预计五年内车联网渗透率超过50%，语音将成为车载系统标配

我国是全球最大的汽车产销市场，未来车载信息系统市场将有广阔的发展空间。Analysys易观分析预测，到2018年，中国智能车载市场规模将接近400亿元，年均增长率超过70%，将保持高速发展状态。

与此同时，车联网进程加快，2015年，车载有屏设备出货量约1300万台，其中具备联网功能的设备渗透率仅为5%左右，预计伴随着相关软硬件适配性能的提升，以及车联网产品服务逐渐完备，用户用语音控制车载系统习惯逐渐形成，有屏联网的车载终端产业将迎来爆发增长，未来5年内车载设备渗透率将超过50%。

◈ 智能家电渗透率提高，智能家居市场蕴涵千亿市场规模，语音作为家居交互入口将大有所为

语音交互正在改变家居生活习惯。2018年，中国智能家居市场规模将达到1680亿元。智能电视是仅次于智能手机渗透率最高的智能家电单品，而智能电视居于客厅位置的核心。也有越来越多的消费者习惯在沙发上使用语音换台，语音作为智能家居入口将有广阔的想象空间。

◈ 可穿戴设备市场规模潜力巨大，VR/AR、智能手表等兴起，语音将成为天然交互入口

Analysys易观估算，2018年可穿戴设备市场规模将接近400亿元，其中品类最大的是智能手表。近两年，VR，AR的概念开始深入大众，未来几年相关硬件将呈现爆发式增长。而可穿戴设备由于其特性所限，很难通过单一触摸实现流畅交互，因此语音交互成为刚需。

三、科技巨头，初创公司纷纷从不同维度布局相关产业链

◈ 国外科技巨头：通过并购等手段，夯实核心技术，开放应用平台，在既有的产品和业务中实现AI first，扩展以AI为核心的生态系统

在技术层，科技巨头多推出算法平台吸引开发者，实现产品快速迭代，打造开发者生态链，形成行业标准。例如，谷歌通过一系列并购、开放平台的建立，软件硬件一体化来打造这个生态系统。

苹果在自身生态系统中相继推出面向可穿戴、家居、车载等领域的产品。亚马逊则基于自身电商生态业务，推出智能音箱，成功敲开了智能家居的大门。

◈ 谷歌：延续既有开放模式，打造开发者生态链，推出Google Home，试图建立物联网时代安卓系统

在谷歌的AI first战略中，一方面，推出人工智能学习系统平台TensorFlow，以吸引开发者，实现产品快速迭代，打造开发者生态链，形成行业标准；另一方面，推出谷歌家庭，试图建立物联网时代安卓系统。同时，将AI技术应用于其原有的产品中，比如Google输入法、Google 翻译、Google Now等，不断提升产品性能，优化用户体验。

◈ 苹果：基于智能硬件定标准、做平台、获数据，重视物联网时代生态控制权

与谷歌的开放生态不同，苹果依旧延续了其既有的封闭系统，瞄准物联网时代的生态控制权。同时，以硬件擅长的苹果这次仍从布局硬件起步，打造软硬件生态系统，依靠其广泛的OS系统用户，再基于已推广的OS系统拓展至物联网产业链。

比如移动设备方面，苹果基于iPhone推广到车载领域的CarPlay；可穿戴设备方面，基于AppleWatch推广HealthKit，以获取用户运动健康数据。

此外，还基于硬件定标准做平台，比如在家居方面，苹果搭建HomeKit平台，吸引霍尼韦尔、飞利浦、海尔等各厂商的智能家居硬件接入。苹果希望打造物联网时代完整的生态系统，并通过源源不断的用户数据，优化自身生态系统，提升用户体验。

◈ 国内互联网巨头：开放语音生态系统，以产业内合作的方式，将语音技术植入产品和或应用于相关业务场景，构建全产业生态链

在中国，以BAT等为代表的众多互联网巨头也纷纷开发智能语音市场。在语音生态系统方面，百度宣布语音识别技术及能力全面开放。腾讯、搜狗语音开放平台相继上线。

在语音技术应用方面，各大厂商对家居、车载、可穿戴等环节的关注明显升温。智能家居领域，百度发布了Baidu ihome，阿里联合智能家电厂商推出天猫魔盒，搜狗联手魅族，发布魅族电视盒子。

智能车载领域，百度分别推出了手机车机智能互联的产品Carlife，车的私有云服务平台MyCar，和智能语音人机交互方式的智能行车助手CoDriver。

阿里云和上汽合作推出车载操作系统，腾讯发布了路宝APP+路宝盒子，可与腾讯云连接，以实现车辆诊断、油耗分析、车友社交等功能。

搜狗则和四维图新合作，推出飞歌导航。可穿戴领域，百度采取扶持外部产品，内置百度服务，形成开放生态思路：分别推出了Inside智能硬件平台，基于健康云的Dulife智能健康平台，以及百度手表应用，以吸引硬件厂商加入。

◈ 百度：瞄准人工智能战场，对外开放语音生态系统，对内在自身产品业务中实现AI First

百度是国内较早开放语音云平台的巨头之一。对外主要采取开放自身语音生态系统的方式将语音技术输出。

主要分为三个层次：第一，开放最底层的语音识别技术应用程序编程接口，开发者可以调用API实现语音识别功能。第二，向开发者提供开发工具包SDK，对语音识别标准化服务进行封装，以便于最终对接服务和应用。第三，与硬件厂商合作，将语音技术植入硬件。百度希望通过这种产业内合作的方式逐步渗透到家居、车载等领域。

对内，基于百度大脑，将百度在语音、图像、自然语言处理和深度学习等方面的能力渗入到产品线中，并贯穿百度各项业务部署。比如手机百度依托深度学习算法根据不同用户的搜索偏好进行用户画像，进行精准推荐。

在地图和输入法中也植入百度语音助手，将度秘机器人植入各类硬件，进一步提升用户体验。同时，百度的无人驾驶技术也处于领先地位。

◈ 国内智能语音公司：依托原有优势，从单一智能语音技术商转型全方位人工智能技术服务商

在国内专注智能语音技术的公司中，有两家厂商值得关注。一家是科大讯飞，另一家是捷通华声。这两家企业在前期业务以运营商，金融等行业客户和政府为主。后期开始发力智能家居，智能车载等领域。从单一的智能语音技术商全面转型人工智能技术服务商。

但在商业化路径上，有别于前述互联网公司。他们仍采取的是传统的“平台嵌入”服务，即将自身语音技术植入相关合作伙伴的产品中，以推动智能语音和人工智能技术在家居、车载、可穿戴等领域的落地。

◈ 科大讯飞：传统优势明显，未来将更注重通用人工智能技术和平台级业务的拓展

科大讯飞长期在教育领域拥有绝对优势。除教育外，政府便民工程、呼叫中心和客服也是讯飞长期深耕的领域。

近两年讯飞的重点关注的领域开始向移动互联网和物联网转移。从业务布局层面看，先后发布讯飞云平台和人工智能交互平台AIUI，利用通用的人工智能技术和平台级业务，将语音识别、自然语言处理能力授权给第三方，或者与其他公司进行合作，并且开始向垂直领域拓展。

比如在智能家居领域，讯飞联合京东发布叮咚音箱，2016年推出讯飞电视助理，打造智能家居领域的入口级应用。在智能车载领域，讯飞重点推出了飞鱼汽车助理，将和奇瑞等汽车制造商合作，推进车联网进程。通过源源不断的垂直场景的数据，训练“讯飞超脑”，推进人工智能发展。

◈ 初创厂商：以垂直领域和细分场景为突破口，重点布局家居，车载和可穿戴设备

初创厂商在AI商业化上主要分为两种路径。第一种，开放API接口给第三方，软硬一体化，走2B或2B2C路线。比如与家居厂商合作，将语音技术植入家电，以此切入智能家居场景。或者从后装车载市场切入，开发带有智能语音系统的后视镜等。

这类代表厂商包括图灵机器人、思必驰、云知声等。第二种，走软硬一体化，走2C路线。从智能手表切入，逐渐扩展到车载，家居等场景，代表厂商有出门问问。

◈ 图灵机器人：定位于语义和认知计算的平台服务提供商，提供聊天机器人平台和机器人操作系统

图灵机器人是国内一款从中文语义起家的人工智能技术服务提供商。目前的产品主要包括聊天机器人开放平台—图灵机器人平台和人工智能级机器人操作系统—Turing OS。

Turing OS能够支持上下文对话、问答，以及Saas服务。在人工智能技术落地方面，图灵通过提供不同技术实施方案，为开发者提供多种场景化内容及AI能力，助力合作伙伴更快打造软硬件智能产品。

◈ 思必驰：专注垂直领域智能硬件的语音交互解决方案

思必驰是国内一家专注于垂直领域智能硬件的语音交互解决方案服务商。聚焦于2B领域的车载、家居和机器人等业务。推出了AIOS的智能人机对话系统，并应用于家居和车载场景。此外，在此基础上开放生态合作，共同推进智能语音技术在垂直领域的落地。

◈ 云知声：聚焦物联网，构建“云端芯”产品战略

云知声是一家专注物联网人工智能技术的服务商。商业化路径是典型2B2C模式。通过与美的，格力等家电巨头合作，将语音技术及AI芯片融入到相关产品中，借助巨头的渠道资源触达终端消费者，并将数据源源不断地汇集到自身云平台中，迭代优化产品，提升用户体验。同时发力车载后装市场，未来可能基于声纹等特征将车和家居的用户ID打通，以此挖掘更大的数据价值，提供个性化增值服务。

◈ 出门问问：以可穿戴设备为切入点，走以AI为中心的软硬结合路线

与多数初创厂商不同的是，出门问问走了一条2C路线。以可穿戴设备为切入点，走以AI为中心的软硬结合路线。从一家纯算法公司，发展为全栈式创业团队。

先后发布了一二代智能手表，并进军后装车载领域，推出车载后视镜。未来将会将场景拓展到家居领域，进一步打造移动终端、可穿戴设备、车和家居的物联网多屏联动生态。

四、面向物联网的智能语音产业链的形成将引起商业模式的变化

◈ 未来趋势：以语音为入口，建立以物联网为基础的商业模式

Analysys易观分析认为，智能语音的未来价值点在于用户数据挖掘，以及背后内容，服务的打通。以语音作为入口的物联网时代将会产生新的商业模式。

不同商业模式对硬件有不同的需求，广告效果与屏幕尺寸有很大关系，因此在家居中，尤其是智能电视为核心的场景下，广告仍是一个主要收入来源。而可穿戴设备、智能车载等硬件获取的大量数据在健康、保险等行业有巨大的价值，因而产生全新的商业模式。

◈ 智能家居：以合适的入口级应用为载体，基于万物互联的标准，将技术与硬件结合，实现内容和服务的拓展

Analysys易观分析认为，找到合适的语音入口是挖掘智能家居背后用户价值的关键。硬件本身具有入口价值，智能音箱、智能电视、家庭机器人等都有可能成为合适的入口。通过前端语音交互提供入口，后端互联网提供服务的方式完成物联网时代家居场景下的商业模式转换。

◈ 智能车载：车联网向纵深方向发展，硬件基础功能免费，基于用户数据的挖掘和增值服务将成为未来主要赢利点

Analysys易观分析认为，语音交互在车载场景中存在刚需，也会成为最先爆发的领域。而车联网的纵深化发展，将会衍生出硬件免费，靠个性化增值服务盈利的商业模式。

以汽车保险为例。以前车载场景痛点在于，车厂将车交给4S店，然后4S店卖给用户。车一旦卖出后，车厂和用户就失去了联系。而用户买车后还会买车险，这部分又由单独的保险公司介入，但是他们缺乏用户用车数据，因此保费定价存在痛点。

而未来，车载设备提供商可以通过补贴用户来抢占汽车内显示屏市场，通过用户用车行为数据的搜集与挖掘，为保险公司和车厂提供信息，保险公司根据数据设立分层级的保费机制，激励规范驾驶行为。这样，信息流和服务流将不断在生态系统中流转，不断挖掘更大价值。

◈ 智能可穿戴：从单一售卖硬件获得现金流，到后续通过内容和服务获得持续现金流的模式

Analysys易观分析认为，可穿戴设备的发展仍旧遵循从早期的差异化硬件盈利，过渡到后期的运维和个性化增值服务盈利的模式。可穿戴设备是用户使用时间最长的智能硬件设备，会收集到用户属性、生活习惯、行为轨迹、运动健康以及社交等方面的数据。

这些数据经过分析后会产生巨大的价值。比如，基于用户健康和运动数据的挖掘，可以将信息推送给健身私教，作为健康咨询和健身指导的依据。

而基于用户生活作息、消费习惯等方面的数据，并且将这些数据与LBS结合，可以提供给餐饮、零售等企业，提供精准营销服务。

总之，基于用户行为特征数据的挖掘分析，和后端互联网内容的增值服务，将会是未来盈利的重要模式。

阿里巴巴首次近万字公布人工智能对话交互技术

超脑智能

在《中国人工智能学会通讯》2017年第11期杂志上，刊登了阿里巴巴智能服务事业部撰写的近万字人工智能对话交互技术内容，包括自然语言理解、智能问答、智能聊天和对话管理等核心技术，以及阿里巴巴的智能对话交互产品。通过这个内容可以系统了解阿里在智能对话交互技术上的能力。

全文6901字，阅读需要10分钟。

作者：阿里巴巴集团孙健，李永彬，陈海青，邱明辉

过去20多年，互联网及移动互联网将人类带到了一个全新的时代，如果用一个词来总结和概括这个时代的话，“连接” 这个词再合适不过了。这个时代主要建立了四种连接：第一，人和商品的连接；第二，人和人的连接；第三，人和信息的连接；第四，人和设备的连接。

“连接“本身不是目的，它只是为“交互”建立了通道。在人机交互（Human-Computer Interaction）中，人通过输入设备给机器输入相关信号，这些信号包括语音、文本、图像、触控等中的一种模态或多种模态，机器通过输出或显示设备给人提供相关反馈信号。“连接”为“交互”双方架起了桥梁。

“交互”的演进方向是更加自然、高效、友好和智能。对人来说，采用自然语言与机器进行智能对话交互是最自然的交互方式之一，但这条路上充满了各种挑战。如何让机器理解人类复杂的自然语言？如何对用户的提问给出精准的答案而不是一堆候选？如何更加友好地与用户闲聊而不是答非所问？如何管理复杂的多轮对话状态和对话上下文？在阿里巴巴，我们从2014年初开始对智能对话交互进行探索和实践创新，研发成果逐步大规模应用在了智能客服（针对阿里巴巴生态内部企业的阿里小蜜、针对阿里零售平台上的千万商家的店小蜜，以及针对阿里之外企业及政府的云小蜜等）和各种设备（如YunOS手机、天猫魔盒、互联网汽车等）上。

本文将对阿里巴巴在智能对话交互技术上的实践和创新进行系统的介绍。首先简要介绍智能对话交互框架和主要任务；接下来详细介绍自然语言理解、智能问答、智能聊天和对话管理等核心技术；然后介绍阿里巴巴的智能对话交互产品；最后是总结和思考。

1 智能对话交互框架

典型的智能对话交互框架如图1所示。其中，语音识别模块和文本转语音模块为可选模块，比如在某些场景下用户用文本输入，系统也用文本回复。自然语言理解和对话管理是其中的核心模块，广义的自然语言理解模块包括对任务类、问答类和闲聊类用户输入的理解，但在深度学习兴起后，大量端到端（End-to-End）的方法涌现出来，问答和聊天的很多模型都是端到端训练和部署的，所以本文中的自然语言理解狭义的单指任务类用户输入的语义理解。在图2所示的智能对话交互核心功能模块中，自然语言理解和对话管理之外，智能问答用来完成问答类任务，智能聊天用来完成闲聊类任务。在对外输出层，我们提供了SaaS平台、PaaS平台和Bot Framework三种方式，其中Bot Framework为用户提供了定制智能助理的平台。

图1 智能对话交互框架

2 智能对话交互核心技术

智能对话交互中的核心功能模块如图2所示，本部分详细介绍智能对话交互中除输出层外的自然语言理解、智能问答、智能聊天和对话管理四个核心模块。

图2 智能对话交互中的核心功能模块

2.1自然语言理解

自然语言理解是人工智能的AI-Hard问题[1]，也是目前智能对话交互的核心难题。机器要理解自然语言，主要面临如下的5个挑战。

（1）语言的多样性

（2）语言的多义性

（3）语言的表达错误

（4）语言的知识依赖

（5）语言的上下文

表1 上下文示例

U：上海明天的天气

A：上海明天天气……

U：后天呢

U：那你嫁给我吧

A：我妈说我还小

U：我问过你妈了她说同意你嫁给我

继续延续问天气

如何正确的把闲聊接下去

注：U指用户（user），A指智能体（agent）。下同。

整个自然语言理解围绕着如何解决以上难点问题展开。

2.1.1自然语言理解语义表示

自然语言理解的语义表示主要有三种方式[2]。

（1）分布语义表示（Distributional semantics）

（2）框架语义表示（Frame semantics）

（3）模型论语义表示（Model-theoretic semantics）

在智能对话交互中，自然语言理解一般采用的是frame semantics表示的一种变形，即采用领域（domain）、意图（intent）和属性槽（slots）来表示语义结果，如图3所示。

图3 domain ongology示意图

在定义了上述的domain ontology结构后，整个算法流程如图4所示。

图4 自然语言理解流程简图

2.1.2意图分类

意图分类是一种文本分类，主要分为基于规则的方法、基于传统机器学习的方法和基于深度学习的方法，如CNN [3]、LSTM [4]、RCNN [5]、C-LSTM [6]及FastText[7]等。针对CNN、LSTM、RCNN、C-LSTM四种典型的模型框架，我们在14个领域的数据集上进行训练，在4万左右规模的测试集上进行测试，采用Micro F1作为度量指标（注：此处的训练和测试中，神经网络的输入只包含word embedding，没有融合符号表示），结果如图5所示，其中Yoon Kim在2014年提出的基于CNN[3]的分类算法效果最好。

图5 四种模型的分类效果对比

单纯以word vector为输入的CNN分类效果，在某些领域上无法超越复杂特征工程的SVM分类器。如何进一步提升深度学习的效果，其中一个探索方向就是试图把分布式表示和符号表示进行融合。比如对于“刘德华的忘情水”这句话，通过知识库可以标注刘德华为singer、忘情水为song，期望能把singer和song这样的符号表示融入到网络中去。具体融合方法，既可以把符号标签进行embedding，然后把embedding后的vector拼接到word vector后进行分类，也可以直接用multi-hot的方式拼接到word vector后面。分布式表示和符号表示融合后的CNN结构如图6所示。

图6 分布式表示和符号表示融合后的CNN分类网络结构

经过融合后，在14个领域约4万条测试数据集上，对比融合前后的F1值（如图7所示），从中可以看出，像餐厅、酒店、音乐等命名实体多且命名形式自由的领域，效果提升非常明显。

图7 在CNN中分布式表示融合符号表示前后效果对比

在以词为输入单位的CNN中，经常会遇到OOV（Out-Of-Vocabulary）问题，一般情况下会使用一个特殊向量（比如固定的随机向量或者已知词向量的平均值）来表示所有的OOV，这样做的效果肯定不够好。在我们的实现中，引入了FastText [8]来训练word vector，对于OOV，可以用其subword向量计算得到，有效地解决了OOV的问题。

在效果优化方面，除了本文中所述的word vector的动态训练和dropout之外，通过对训练数据进行数据增强（data augmentation），效果会有较大的提升。

2.1.3属性抽取

属性抽取问题可以抽象为一个序列标注问题，可以以字为单位进行序列标注，也可以以词为单位进行序列标注，如图8所示为以词为单位进行序列标注的示例。在这个例子中包含departure、destination和time三个待标注标签；B表示一个待标注标签的起始词；I表示一个待标注标签的非起始词，O表示非待标注标签词。

图8 序列标注示例

属性抽取的方法，包括基于规则的方法，基于传统统计模型的方法，经典的如CRF[9]，以及基于深度学习模型的方法。2014年，在ARTIS数据集上，RNN [10]模型的效果超过了CRF。此后，R-CRF [11]、LSTM[12]、Bi-RNN[13]、 Bi-LSTM-CRF[14]等各种模型陆续出来。

在属性抽取这个任务中，我们采用了如图9的网络结构，该结构具有以下优点。

图9 属性抽取网络结构

（1）输入层

在输入层，我们做了三部分工作：① 采用了分布式表示（word vector）和符号表示（symbol vector）融合的方式，有效利用了分布式的上下文学习能力和符号的抽象知识表示能力；② 采用了局部上下文窗口（local context window），将窗口内的词的表示拼接在一起送入一个非线性映射层，非线性映射具有特征学习和特征降维的作用；③ 采用了FastText [8]进行word embedding的学习，可以有效解决OOV（Out-Of-Vocabulary）的问题。

（2）Bi-LSTM层

在中间的隐藏层，采用Bi-LSTM进行特征学习，既能捕捉上文特征，也能捕捉下文特征。

（3）输出层

在输出层有几种典型的做法，比如Bi-LSTM+Softmax、Bi-LSTM+CRF等，Bi-LSTM+Softmax是把属性抽取在输出层当成了一个分类问题，得到的标注结果是局部最优，Bi-LSTM+CRF在输出层会综合句子层面的信息得到全局最优结果。

2.1.4意图排序

在表1中，我们展示了一个例子，如果不看上下文，无法确定“后天呢”的意图。为了解决这个问题，在系统中我们设计了意图排序模块，其流程如图10所示。对于用户输入的utterance，一方面先利用分类抽取模型去判定意图并做抽取；另一方面，直接继承上文的意图，然后根据这个意图做属性抽取。这两个结果通过特征抽取后一起送入一个LR分类器，以判定当前utterance是应该继承上文的意图，还是遵循分类器分类的意图。如果是继承上文意图，那么可以把这个意图及其属性抽取结果作为最终结果输出；如果是遵循分类器分类的结果，那么可以把各个结果按照分类器分类的置信度排序输出。

图10 基于上下文的意图延续判定

2.2智能问答

在具体的业务场景中有三种典型的问答任务，一是用户提供QA-Pairs，一问一答；二是建立结构化的知识图谱，进行基于知识图谱的问答；三是针对非结构化的文本，进行基于阅读理解的问答。本文重点介绍我们在阅读理解方面做的工作，比如利用阅读理解解决淘宝活动规则的问答。

在阅读理解的方法上，目前针对斯坦福大学的数据集SquAD，有大量优秀的方法不断涌现，比如match-LSTM [15]、BiDAF [16]、DCN [17]、 FastQA [18]等。文献[18]给出了目前的通用框架，如图11所示，主要分为4层：① Word Embedder，对问题和文档中的词进行embedding；② Encoder，对问题和文档进行编码，一般采用RNN/LSTM/BiLSTM；③ Interaction Layer（交互层），在问题和文档之间逐词进行交互，这是目前研究的热点，主流方法是采用注意力机制（attention）；④ Answer Layer（答案层），预测答案的起始位置和结束位置。

图11 阅读理解的通用框架

我们在具体实现中，参考BiDAF [16]网络结构，在此基础上做了大量优化。

（1）模型的业务优化

需要改进模型的结构设计，使得模型可以支持电商文档格式的输入。电商规则文档往往包含大量的文档结构，如大小标题和文档的层级结构等，将这些特定的篇章结构信息一起编码输入到网络中，将大幅提升训练的效果。

（2）模型的简化

学术文献中的模型一般都较为复杂，而工业界场景中由于对性能的要求，无法将这些模型直接在线上使用，需要做一些针对性的简化，使得模型效果下降可控的情况下，尽可能提升线上预测性能，例如可以简化模型中的各种bi-lstm结构。

（3）多种模型的融合

当前这些模型都是纯粹的end-to-end模型，其预测的可控性和可解释性较低，要适用于业务场景的话，需要考虑将深度学习模型与传统模型进行融合，达到智能程度和可控性的最佳平衡点。

2.3智能聊天

面向open domain的聊天机器人目前无论在学术界还是在工业界都是一大难题，目前有两种典型的方法：一是基于检索的模型，比如文献[19-20]，其基本思路是利用搜索引擎通过计算相关性来给出答案；二是基于Seq2Seq的生成式模型，典型的方法如文献[21-22]，其网络结构如图12所示。

图12 Seq2Seq典型网络结构

检索模型的优点是答案在预设的语料库中，可控，匹配模型相对简单，可解释性强；缺点是在一定程度上缺乏对语义的理解，且有固定语料库的局限性，长尾问题覆盖率较差。生成模型的优点是通过深层语义方式进行答案生成，答案不受语料库规模限制；缺点是模型的可解释性不强，且难以保证回答一致性和合理性。

在我们的聊天引擎中，结合检索模型和生成模型各自的优势，提出了一种新的模型AliMe Chat [23]，基本流程如图13所示。首先采用检索模型从QA知识库中找出候选答案集合；然后利用带注意力的Seq2Seq模型对候选答案进行排序，如果第一候选的得分超过某个阈值，则作为最终答案输出，否则利用生成模型生成答案。其中带注意力的Seq2Seq模型结构如图14所示。经过训练后，主要做了如下测试：如图15所示，利用600个问题的测试集，测试了检索（IR）、生成（Generation）、检索+重排序（Rerank）及检索+重排序+生成（IR+Rerank+Generation）四种方法的效果，可以看到在阈值为0.19时，IR+Rerank+Generation的方法效果最好。

图13 AliMe Chat流程图

图14 带注意力的Seq2Seq网络结构示例

图15 IR、Generation、Rerank、IR+Rerank+Generation效果对比

此模型在阿里小蜜中上线后，示例如图16所示。在阿里小蜜中，针对之前的IR模型和AliMe Chat模型，利用线上流量做了A/B Test，结果如图17所示。从用户日志中随机选择2 136条数据，其中1 089是采用IR模型回答，另外1 047是采用AliMe Chat回答，AliMe Chat Top1答案的准确率（accuracy）是60.36%，远远好于IR的40.86%。

图16 AliMe Chat在阿里小蜜中上线后的聊天示例

图17阿里小蜜中IR方法与AliMe Chat方法A/B Test结果

2.4对话管理

对话管理根据语言理解的结构化语义表示结果以及上下文，来管理整个对话的状态，并决定下一步采取什么样的动作。

下面来看一个简单的对话例子。

U：我要去杭州，帮我订一张火车票

A：请问你什么时间出发？

U：明天上午

A：为你找到了以下火车票：

U：我要第二个

A：第二个是……，您是否要购买？

U：我要购买

对话交互分成两个阶段，第一阶段，通过多轮对话交互，把用户的需求收集完整，得到结构化的信息（出发地、目的地、时间等）；第二阶段就是请求服务，接着还要去做选择、确定、支付、购买等后面一系列的步骤。

传统的人机对话，包括现在市面上常见的人机对话，一般都是只在做第一阶段的对话，第二阶段的对话做得不多。对此，我们设计了一套对话管理体系，如图18所示，这套对话管理体系具有以三个特点。

第一，设计了一套面向Task Flow的对话描述语言。该描述语言能够把整个对话任务流完整地表达出来，这个任务流就是类似于程序设计的流程图。对话描述语言带来的好处是它能够让对话引擎和业务逻辑实现分离，分离之后业务方可以开发脚本语言，不需要修改背后的引擎。

第二，由于有了Task Flow的机制，我们在对话引擎方带来的收益是能够实现对话的中断和返回机制。在人机对话当中有两类中断，一类是用户主动选择到另外一个意图，更多是由于机器没有理解用户话的意思，导致这个意图跳走了。由于我们维护了对话完整的任务流，知道当前这个对话处在一个什么状态，是在中间状态还是成功结束了，如果在中间状态，我们有机会让它回来，刚才讲过的话不需要从头讲，可以接着对话。

第三，设计了对话面向开发者的方案，称之为Open Dialog，背后有一个语言理解引擎和一个对话引擎。面向开发者的语言理解引擎是基于规则办法，能够比较好地解决冷启动的问题，开发者只需要写语言理解的Grammar，基于对话描述语言开发一个对话过程，并且还有对数据的处理操作。这样，一个基本的人机对话就可以完成了。

图18 对话管理框架图

3阿里巴巴智能对话交互产品

3.1智能服务——小蜜家族

2015年7月，阿里巴巴推出了自己的智能服务助理-阿里小蜜，一个围绕着电子商务领域中的服务、导购，以及任务助理为核心的智能对话交互产品。通过电子商务领域与智能对话交互领域的结合，带来传统服务行业模式的变革与体验的提升。在2016年的双“十一”期间，阿里小蜜整体智能服务量达到643万，其中智能解决率达到95%，智能服务在整个服务量(总服务量=智能服务量+在线人工服务量+电话服务量)占比也达到95%，成为了双“十一”期间服务的绝对主力。阿里小蜜主要服务阿里国内业务和阿里国际化业务，国内业务如淘宝、天猫、飞猪、健康、闲鱼、菜鸟等，国际化业务如Lazada、PayTM、AE等。

随着阿里小蜜的成功，将智能服务能力赋能给阿里生态圈商家及阿里生态之外的企业和政府部门，便成了必然的路径。店小蜜主要赋能阿里生态中的商家，云小蜜则面向阿里之外的大中小企业、政府等。整个小蜜家族如图19所示。

图19 小蜜家族

3.2 智能设备

过去3~4年，我们可以看到，连接互联网的设备发生了很大变化，设备已经从PC和智能手机延伸到更广泛的智能设备，比如智能音箱、智能电视、机器人、智能汽车等设备。智能设备的快速发展正在改变着人和设备之间的交互方式。

我们研发的智能对话交互平台为各种设备提供对话交互能力，目前在YunOS手机、天猫魔盒、互联网汽车等设备上已经大量应用。比如在天猫魔盒中，用户通过对话交互可以完成搜视频、查音乐、问天气等，可以进行闲聊，还可以进行购物。

4 总结与思考

过去几年中，结合阿里巴巴在电商、客服、智能设备方面的刚性需求和场景，我们在智能对话交互上做了大量的探索和尝试，构建了一套相对完整的数据、算法、在线服务、离线数据闭环的技术体系，并在智能服务和智能设备上得到了大规模的应用，简单总结如下。

自然语言理解方面，通过CNN/Bi-LSTM-CRF等深度学习模型、分布式表示和符号表示的融合、多粒度的word embedding、基于上下文的意图排序等方法，构建了规则和深度学习模型有机融合的自然语言理解系统。
智能问答方面，成功的将机器阅读理解应用在了小蜜产品中。
智能聊天方面，提出了AliMe Chat模型，融合了搜索模型和生成模型的优点，大大提高了闲聊的精度。
对话管理方面，设计了基于Task Flow的对话描述语言，将业务逻辑和对话引擎分离，并能实现任务的中断返回和属性的carry-over等复杂功能。

在智能交互技术落地应用的过程，我们也在不断思考怎么进一步提高智能交互技术水平和用户体验。

第一，坚持用户体验为先。坚持用户体验为先，就是产品要为用户提供核心价值。

第二，提高语言理解的鲁棒性和领域扩展性。

第三，大力发展机器阅读理解能力。

第四，打造让机器持续学习能力。

第五，打造数据闭环，用数据驱动效果的持续提升。

目前的人工智能领域仍然处在弱人工智能阶段，特别是从感知到认知领域需要提升的空间还非常大。智能对话交互在专有领域已经可以与实际场景紧密结合并产生巨大价值，尤其在智能客服领域（如阿里巴巴的小蜜）。随着人工智能技术的不断发展，未来智能对话交互领域的发展还将会有不断的提升。

参考文献

[1] https://en.wikipedia.org/wiki/Natural_language_understanding.

[2] Percy Liang, Natural Language Understanding: Foundations and State-of-the-Art, ICML, 2015.

[3] Yoon Kim, Neural Networks for Sentence Classification, EMNLP, 2014.

[4] Suman Ravuri, and Andreas Stolcke, Recurrent Neural Network and LSTM Models for Lexical Utterance Classification, InterSpecch, 2015.

[5] Siwei Lai, Liheng Xu, Kang Liu, and Jun Zhao, Recurrent Convolutional Neural Networks for Text Classification, AAAI, 2015.

[6] Chunting Zhou, Chonglin Sun, Zhiyuan Liu, and Francis C.M. Lau, A C-LSTM Neural Network for Text Classification, arXiv, 2015.

[7] Armand Joulin, Edouard Grave, Piotr Bojanowski, and Tomas Mikolov, Bag of Tricks for Efficient Text Classification, EACL, 2017.

[8] Piotr Bojanowski, Edouard Grave, Armand Joulin and Tomas Mikolov, EnrichingWord Vectors with Subword Information, TACL, 2017.

[9] C. Raymond, and G. Riccardi, Generative and discriminative algorithms for spoken language understanding, Interspeech, 2007.

[10] Kaisheng Yao, Geoffrey Zweig, Mei-Yuh Hwang, Yangyang Shi, and Dong Yu, Recurrent neural networks for language understanding, InterSpeech, 2013.

[11] Kaisheng Yao, Baolin Peng, Geoffrey Zweig, Dong Yu, Xiaolong Li, and Feng Gao, Recurrent conditional random field for language understanding, ICASSP, 2014.

[12] Kaisheng Yao, Baolin Peng, Yu Zhang, Dong Yu, Geoffrey Zweig, and Yangyang Shi, Spoken language understanding using long short-term memory neural networks, 2014 IEEE Spoken Language Technology Workshop (SLT), 2014.

[13] Grégoire Mesnil, Yann Dauphin, Kaisheng Yao, Yoshua Bengio, Li Deng, Dilek Hakkani-Tur, Xiaodong He, Larry Heck, Gokhan Tur, Dong Yu, and Geoffrey Zweig, Using Recurrent Neural Networks for Slot Filling in Spoken Language Understanding, TASLP, 2015

[14] Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, and Chris Dyer, Neural architectures for named entity recognition, NAACL, 2016.

[15] Shuohang Wang, and Jing Jiang, Machine comprehension using match-lstm and answer pointer, ICLR, 2017.

[16] Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi, and Hananneh Hajishirzi, Bidirectional attention flow for machine comprehension, ICLR, 2017.

[17] Caiming Xiong, Victor Zhong, and Richard Socher, Dynamic coattention networks for question answering, ICLR, 2017.

[18] Dirk Weissenborn, Georg Wiese, and Laura Seiffe, Making Neural QA as Simple as Possible but not Simpler, arXiv, 2017.

[19] Zongcheng Ji, Zhengdong Lu, and Hang Li, An information retrieval approach to short text conversation, arXiv, 2014.

[20] Zhao Yan, Nan Duan, Jun-Wei Bao, Peng Chen, Ming Zhou, Zhoujun Li, and Jianshe Zhou, Docchat: An information retrieval approach for chatbot engines using unstructured documents, ACL, 2016.

[21] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio, Neural machine translation by jointly learning to align and translate, ICLR, 2015.

[22] Oriol Vinyals, and Quoc V. Le., A neural conversational model, ICML Deep Learning Workshop, 2015.

[23] Minghui Qiu, Feng-Lin Li, Siyu Wang, et al., AliMe Chat: A Sequence to Sequence and Rerank based Chatbot Engine, ACL, 2017.

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”；新模式：“财富空间”、“数据科学家”、“赛博物理”、“供应链金融”。

官方网站：AI-CPS.NET

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！

产业智能官

关注

3
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
【人工智能】2017年中国人工智能技术——智能语音应用报告

2016年是人工智能（AI）元年，智能语音技术作为AI应用最成熟的技术之一，在智能家居、智能车载、智能可穿戴领域有了迅猛发展。鉴于此，科技巨头、初创公司纷纷从不同维度布局相关产业链，未来面向物联网的智能语音产业链的形成将引起商业模式的变化。一、智能语音技术取得重大突破，商业化落地成为可能◈ 智能语音技术是人工智能产业链上的关键一环人工智能产业链主要分为三个层次。底层是基础设施，包括芯片、模组、传感
复制链接

扫一扫