分享一份科大讯飞智能交互能力大全

闲来无事,收集了一下国内语音技术龙头企业开放技术汇总,让刚刚开始入门的小伙伴快速了解目前科大讯飞开放平台提供的各项服务以及收费情况,各项服务也会有详细介绍的帖子链接。有些版本因为升级,在讯飞开放平台官网描述的有出入,请以官网内容为准。


总体来说开放平台提供服务如下图所示,包含了语音合成、语音识别、语义理解、模式识别、麦克风阵列、AIUI交互界面解决方案等多个种类。




【在线语音合成】


语音合成通俗的说是指将文字变成语音播放出来(或者保存起来),在线合成顾名思义就是利用讯飞线上服务器进行联网情况下的语音合成。目前在线的语音合成服务是免费的,只需要在官网下载对应的SDK就可以免费集成使用了。SDK支持多种发音人,音调语速音量有参数可调。


【离线语音合成】


离线语音合成就是利用SDK里面的离线合成引擎进行不联网情况下的语音合成。离线的语音合成SDK目前是收费的,在SDK下载界面下载离线合成SDK是如果你没有购买,网页会提示你购买。具体购买的流程可以参考:http://www.xfyun.cn/services/offline_tts?tab_index=1 购买前有什么疑问可以参考:http://www.xfyun.cn/services/offline_tts?tab_index=2 另外考虑到开发者在开发中需要集成测试离线合成的SDK,我们还提供了免费的体验版离线语音合成SDK,体验版本只是会有3个装机量和35天试用的限制,在功能和性能方和收费的正式版没有区别。


【在线命令词识别】


命令词识别就是用来识别开发者自定义的一组或几组指令,SDK可以识别出用户发出的命令在不在开发者定义的范围内,如果在则可以判断出是哪个命令,总体的效果就是用户对设备(手机、玩具、家电等)说出操作指令(即“命令词”),设备即作出相应的反馈,开启语音交互。在线的命令词识别是免费的,直接下载对应SDK即可集成使用。


【离线命令词识别】


离线命令词识别目前是收费的,需要购买后才能下载使用,下载时会提示你购买,购买流程参考:http://www.xfyun.cn/services/commandWord?tab_index=2 购买前有什么疑问可以参考离线命令词识别 。与离线语音合成一样,离线命令词识别也提供了有装机量和使用时间限制的体验版。


【语音听写】


听写与合成相反,就是把语音内容转成想要的文字表述,目前只有在线版本的听写SDK,自然也是免费使用的。语音听写和命令词识别的区别是, 听写只是将语音转成文字,但是机器此时并不理解这段文字的意思,不知道说话人的意图,命令词识别就可以识别出说话人发出的是哪条命令,但是命令词识别也不 是完美的,因为它只能识别开发者定义好的一组或者几组命令,对于没有定义的依然是识别不了。当然对于比较复杂的语义理解的任务我们也有专门的服务哦(见开 发语义)。


注意:上述的“离线”是指我们的离线SDK本身具备离线能力,不需要任何插件工具和云端的支持。这里还有一种离线是指使用我们的语记app(其前身就是语音+)实 现离线的语音合成、听写以及识别功能,在这种情况下项目使用的SDK其实是在线的SDK,但是通过设置其引擎类型 (SpeechConstant.ENGINE_TYPE)为本地(SpeechConstant.TYPE_LOCAL)就可以依靠语记提供相应的语音能力。


【语音唤醒】


唤醒就是通过对手机(或综合遥控器等)说出定制的唤醒词,让其处于等待指令状态,然后开始语音语义交互,而不需要让机器一直保持在接收听写的较为耗电的状态。听过唤醒的定义可以看出只有离线的唤醒才具有较大的价值,事实上我们目前也只提供收费的离线唤醒的SDK,下载SDK会提示购买,具体收费情况会在购买界面清楚地说明。同时也有体验版本的SDK供下载测试体验。


【开放语义】


开放语义就是对用户输入的语音(文字也可以)进行理解,能提取出说话人的意思和意图(提取出语义),甚至可能对说话人做出回答和反馈(智能问答),这里面包含了两个方面功能,一个是语义提取,一个是智能问答。我们的服务器免费为开发者提供了通用的语义和问答库,开发只要为自己的app勾选对应的场景即可在终端体验到开放语义服务,在开放语义也可以在线体验。通用的语义和问答库有的时候并不能满足所有开发者的需求,因此我们还为这样的开发者提供了可以自定义的私有语义库和私有问答库。上述的开放语义的所有功能目前都是免费的。


时间比较有限,写的也不是很全面,希望对刚刚入门的被各种专用名词各种虐的小伙伴有所帮助。
阅读更多
上一篇Java语音程序开发用户指南
下一篇讯飞开放平台上线业界首个多生物特征融合认证方案
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭