基于阿里云API打造“Kim智能语音助理”

作为一家专注境外自由行的“互联网+”创业公司,我们始终在积极探索用户服务的终点在哪。当一名国内游客置身一个完全不同的语言环境时,内心或许是不安的;而境外落地服务的司机,大多数情况下是外国人,这就造成了极大的沟通困难。在这种场景下,如果车内可以通过智能设备为客人送去问候,并帮助其和司机、客服完成沟通,可以大幅提升国内游客在境外出游的舒适度。

基于此,我打算尝试一下是否能够基于阿里云制造这样一个物联网产品,毕竟对于创业公司来讲,借助阿里云的技术能力能节省不少成本。

开始尝试Kim

说话可能是我们每天做的最多的事情了,当然包括文字和交谈,所以这可能是手机触摸屏以外更“接近自然”的交互方式。

大家已经非常熟知“智能音箱”这个产品,阿里、小米等很多大厂都推出了自己的智能音箱,并与自己的业务体系深度绑定,这让我觉得很“封闭”,过于定制化、可玩性过于局限。

因此,索性我就把“Kim智能语音助理”做成开源项目,让更多的Geek能够参与进来,并且定制成自己的“私人助理”。(下图为天猫精灵X1)

f13286de655c27d3b19e51bb21fe51415405ff7a

 

最初的Kim,仅是一个运行在树莓派、Mac上的一个能够语音对话的客户端程序,它通过调用阿里云的TTS和ASR接口实现语音合成及语音识别。

 我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

后来在语音识别的基础上增加了“Kim大脑”,这一个关键的改进让Kim能够理解我们在说什么,并作出预设的响应。为了让这颗“大脑”能够学会更多,我专门在GitHub上维护了一个插件库。没错,我们与Kim的对话经过ASR之后会被传送到Kim的“大脑”,经过“中文语义仲裁算法”把指令交由语义匹配的插件处理。操作流程如下图所示:

1bc694617a12cdc86b165b03dcccf0c1427d5e60

Kim是一个简化的“智能音箱”,已经能够应付大多数的对对话场景,把插件写写好,或许能够应付语音购票的场景了,下图为上海地铁的工作人员在演示语音购票技术。

c7ad0bce5982c3e70212c25c3679c2f76f1b27eb

语音,只是一种交互方式,如果我们通过插件将其转换成计算机可以理解的指令,理论上我们对计算机的任何操作都可以实现。但复杂交互,还需要与计算机当前的状态有关系,我们后面会专门探讨这个问题。

 原文链接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值