多种汉语方言语音落地应用,微软智能语音解锁更多交互场景

多年来,微软持续探索 AI 语音合成与识别技术,获得了大量成果:Azure Neural TTS(text-to-speech,语音合成)与 STT(speech-to-text,语音识别)支持的语言区域达到 140 余个,并支持超过 400 多个音色,并具有丰富细腻的情感,与真人声音不相伯仲。目前,微软智能语音已赋能超过 100 个国家合作伙伴的产品及服务,共同打造了语音交互生态。

近两年,微软在汉语方言智能语音上加大了研究力度,在语音合成上实现了对吴方言和粤方言两种汉语方言,以及西南官话、东北官话、冀鲁官话、中原官话(包括河南、陕西地区)等多种官话次方言的支持;在语音识别上支持吴方言、粤方言和西南官话,受到了众多企业客户的青睐,也得到了终端用户的认可。

值此辞旧迎新之际,微软智能语音为大家送上新春祝福!一起感受方言朗读的独特魅力。

中原官话(河南)音频:

https://ttspublic.blob.core.windows.net/nickzhao/yuanri-henan.wav

中原官话(河南)朗诵的北宋王安石的《元日》

方言版智能语音需求日益增多

智能家居领域,使用智能语音控制空调、电视、电灯等家居产品已经越来越常见。在与智能机器人的对话中,人们往往需要使用标准普通话以得到准确的反馈,但一些习惯使用方言的用户群体——比如家中的老人可能更倾向使用方言进行交流。因此,若智能家居企业在产品中引入方言语音,便能更好地满足人们对不同方言使用的需求。

以吴方言(上海)与智能空调进行交互:

吴方言(上海)音频:

https://ttspublic.blob.core.windows.net/nickzhao/shanghai.wav

侬好,已为侬打开空调,并将温度调低至 25 度。稍后还有其它需要,可以随时呼叫我。

智能导航领域,各大地图厂商将"声音"作为吸引客户的重要卖点,纷纷推出了明星语音包、幽默风趣的相声语音包等等。近两年,越来越多的用户认为方言会让他们感觉更亲切、熟悉,也更容易理解。

以东北官话(辽宁)进行的语音导航:

东北官话(辽宁)音频:

https://ttspublic.blob.core.windows.net/nickzhao/liaoning.wav

我们已经驶入 2022 年冬季,冬天常常与雪为伴,温度将至零下,路面易结冰,所以请减速减速再减速。注意两百米后有一个小小的急转弯,但道路湿滑也容易让你漂移,请收油慢行。前方路口行人较多,还请踩下刹车,不要让它成为摆设。

影视配音中,来自众多地域的不同角色,有时需要搭配方言才能更好地呈现人物形象。比如,角色设定来自东北,性格热情豪爽、快言快语,如果以普通话配音,就失去了特色;再比如,在美食介绍节目中,针对不同的菜系搭配当地的特色方言,更能引起人们的共鸣,想象中就能口齿生津。

以西南官话(四川)介绍美食:

西南官话(四川)音频:

https://ttspublic.blob.core.windows.net/nickzhao/sichuan.wav

重庆火锅以麻、辣、烫、鲜、香、嫩、脆著称,然而正宗的重庆火锅究竟应该烫啥子才巴适?鲜脆毛肚、爽滑鸭肠必不可少,富有嚼劲;剁椒嫩牛肉不可错过,双椒口感鲜辣十足;井水豆芽口感独特,石磨黑豆腐鲜香四溢,清爽荷心香甜解腻。

除了上述场景外,微软智能语音也已经在呼叫中心、新闻阅读等众多场景中应用。越来越多的企业对方言智能语音有需求,包括智能汽车、智能手机等企业对语音助理、呼叫中心的方言场景规划,以及(短)视频配音等等。

保护并传承传统文化,微软持续

致力于方言与诗歌智能语音的研究

汉语是世界上最古老的语言之一,受历史与地理条件的影响,出现了众多代表地域文化特色的方言。自 2017 年起,微软一直致力于 AI for Good 计划的推进,其中包括:通过提供前沿的技术、资源和专业知识,保护人文遗产以及创造更具可持续性和便利性的世界。微软也将持续投入于方言智能语音的研究,助力中国传统文化的保护与传承。

在方言之外,古典诗歌也是文化传承的重要载体。微软通过学习大量诗歌朗诵者的语音数据,可以让 AI 更好地表达诗歌的韵律、停顿、情感。微软可支持传统诗歌、现代诗歌、五言、七言律等智能语音的朗诵。 

中原官话(陕西)朗诵唐朝李世民的《守岁》:

中原官话(陕西)音频:

https://ttspublic.blob.core.windows.net/nickzhao/shousui-shaanxi.wav

《守岁》,唐,李世民。暮景斜芳殿,年华丽绮宫。寒辞去冬雪,暖带入春风。阶馥舒梅素,盘花卷烛红。共欢新故岁,迎送一宵中。

从智能家居到车载语音助手,从呼叫中心转写到多人会议记录,微软智能语音技术不断打破场景限制,让人工智能以各种各样的声音形象来丰富人们的工作和生活。未来,微软智能语音还将扩展覆盖更多全球语言和方言,持续提升模型质量、准确度,尽全力满足区域用户的个性化、差异化定制需求,为使用者提供更好的语音服务,解锁更多交互场景。

附:汉语方言通常分为十大方言:官话方言、晋方言、吴方言、闽方言、客家方言、粤方言、湘方言、赣方言、徽方言、平话土话。各方言区内又分布着若干次方言和许多种“土语”。其中使用人数最多的官话方言可分为东北官话、北京官话、冀鲁官话、胶辽官话、中原官话、兰银官话、江淮官话、西南官话八种次方言。

来源:中国语言文字概况(2021 年版)

http://www.moe.gov.cn/jyb_sjzl/wenzi/202108/t20210827_554992.html

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
车载智能语音语音识别的核心技术 车载智能语音语音识别的核心技术全文共25页,当前为第1页。车载智能语音语音识别的核心技术全文共25页,当前为第1页。车载智能语音语音识别的核心技术 车载智能语音语音识别的核心技术全文共25页,当前为第1页。 车载智能语音语音识别的核心技术全文共25页,当前为第1页。 什么叫自然语音交互,为什么唤醒词都需要四个字以上,为什么方言也能识别,唤醒词和后面的语音识别有什么区别,这期的内容给你精彩答案。 什么是自然交互 这样说吧,你和朋友在一起聊天,吃饭是不是很自然,这样的交互就可以理解为自然交互,这里面有眼神、动作、语音多种交互方式,当然会让你觉得很舒服、不做作,这样就是自然交互。 举一个例子,当你饿了,你会说,今天中午咱们出去吃? 你朋友回答你,那咱们吃什么呢,吃近一些的,要不吃酸菜鱼吧。 你回答说,好吧,那我们打车去吃酸菜鱼吧。 看到没有,首先要听懂你饿了,然后根据你的喜好,推荐一些合适的菜品,最终达成目的,这个在人与人之间交互还好,如果换为机器,那么此时就是非常大的挑战。 车载智能语音语音识别的核心技术全文共25页,当前为第2页。车载智能语音语音识别的核心技术全文共25页,当前为第2页。 车载智能语音语音识别的核心技术全文共25页,当前为第2页。 车载智能语音语音识别的核心技术全文共25页,当前为第2页。 传统语音交互 自然语音交互 车载智能语音语音识别的核心技术全文共25页,当前为第3页。车载智能语音语音识别的核心技术全文共25页,当前为第3页。 车载智能语音语音识别的核心技术全文共25页,当前为第3页。 车载智能语音语音识别的核心技术全文共25页,当前为第3页。 语音识别的核心技术特点 在说语音识别的特点之前,我问问大家目前接触比较多的智能语音助手是哪些啊,是不是苹果手机的Siri,还有智能音箱,还有一些智能车载语音助手,当然少不了一天几个骚扰电话的智能推销。 以下是机哥在做可科大讯飞研究报告中的PPT内容,可以看到科大讯飞的核心技术就在于语音识别、语义理解、自然语音理解、机器翻译、声纹识别,其实在应用上的领域就比较好理解,比如智能可穿戴设备,智能机器人,智能手机上的语音识别,最初级的应用就是语音识别,比如在法庭上的庭审记录直接就可以把语音转换为文字作为记录,省去很大一部分的人力时间提升人工效率,智能语音客服可以回答80%左右的用户问题等等。 其实仔细想想,用户使用智能语音助手的场景,在很长一段时间是解放双手作为最大的吸引点,想想你在开车,想给某个人打电话或者导航到某个地方,无论是安全还是有效性,语音都是最佳选择,还有当你在拖地做家务时,想听听一些轻松的轻音乐,是不是直接语音唤醒音箱播放,比你要去按键,然后再去手动选择输入要巴适得很。 车载智能语音语音识别的核心技术全文共25页,当前为第4页。车载智能语音语音识别的核心技术全文共25页,当前为第4页。 车载智能语音语音识别的核心技术全文共25页,当前为第4页。 车载智能语音语音识别的核心技术全文共25页,当前为第4页。 真正的智能语音助手就如同是一个普通朋友,首先要听清楚说的话,然后理解你表达的意思,最后是执行,也就是同你反馈你需要的东西。这一小节需要讲的语音识别就是属于听清楚的范畴,机哥这个听清楚比较容易吧,只要听力没有问题的人,听清楚语言是没有问题的,这个对于机器其实就不是那么容易了,下面我们先来看看山东大哥被车载语音气疯的一段小视频。 看到了吧,这个就是比较失败的语音识别的例子,这个没有处理好的原因就是语音转文字这里就出了问题,把135识别成133去了,这里的数字最容易识别错误,稍后看了下面的内容你就知道一个大概是什么原因了。 在讲语音识别之前,我们先了解一下指纹识别,使用过指纹解锁的手机的小伙伴几乎每天都几十次的使用频率,其实原理总结起来就比较简单,就是先把你的指纹特征点进行提前登记到指纹库里面,下次你再指纹解锁的时候,此时也是通过提取特征点后进行特征点的匹配,如果匹配OK就开锁,如果匹配不OK及不解锁。 类似于用钥匙去开门的锁一样,一个钥匙只能开一个门的锁,如果钥匙有损坏(也就是你指纹识别的时候有汗水或者其他脏污),那么你原来匹配的门的锁也打不开,想想你的手机指纹解锁的速度还是蛮快的,这个涉及到算法,识别速度指纹库的数量等等。 我们单从指纹库来说,自己使用到的手机录的指纹不会太多,一车载智能语音语音识别的核心技术全文共25页,当前为第5页。车载智能语音语音识别的核心技术全文共25页,当前为第5页。般就左右手大拇指,想想如果是公司的指纹打卡,需要比对的数据库就比非常庞大,所以耗费的时间就会更久一些,类似你要拿一把钥匙去找到整个酒店哪个房间们能打开一样的原理,需要一个一个去比对,当然如果你开每一道

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值