技术人文|声音捐赠,一场PBL式技术预研实验

你有没有想过,在不能说话的情况下该如何向不识字的摊主点不加香菜的二两毛细(拉面)?

“用手比划?”  “画在纸上?”  “找别人帮忙?”

这个问题,阿卷每天都要用实际行动回答——掏出手机,输入想说的话,发送。手机里的语音引擎会把文字转变成语音,通过手腕上缠着的蓝牙随身音箱,洪亮地播报出来。如果忘了阿卷是谁,请戳下方视频

视频 声音配型捐赠纪录片

自5月13日项目发布至今,我们依然与阿卷保持联系,不断尝试新的使用场景。时至中秋,阿卷特别制作了一个小米月饼开箱视频送给大家

视频 阿卷小米月饼开箱分享

除了开箱月饼,我们还想给大家揭晓一个秘密——在声音配型捐赠“助人为乐”和“技术预研”的外表下,潜藏着一场PBL式的技术人员成长实验

PBL,即项目式学习(project based learning),它是一种基于真实问题主动探索、研究、讨论、合作的学习方法。我们将PBL的模式融入到项目中,让每个技术人员都成为问题的探索者和解决方案的设计者,通过自主学习、团队协作、自我反思获得解决方案、探索技术落地;而基于实际的问题求解过程,也能让技术人员得到知识之外的更多体悟。

57bc0a012ff4a65c0e7d8b3edd3106d5.png

图片 PBL中的关键环节

01 

和用户交朋友

就是学会相信他人的智慧

一直以来小米都坚持和用户交朋友,让用户参与产品的打造过程。在PBL的项目中,每一个参与者都是非常重要的一部分,要为问题的解决贡献智慧。声音配型捐赠项目集合了两种理念,随着项目的推进,我们和阿卷的关系也从“接受有挑战的需求”,到了“共破难题的伙伴”。

事实上这并不是阿卷一个人的需求,小米闻声和小爱通话上线后,很多听力、言语障碍用户都反馈过“系统音太像机器人容易被挂电话”。有人请朋友训练了一个模型,稍好些,但朋友打电话来就会不自在,“像是在跟自己聊天”,用户们说:“如果能有一个只属于自己又自然的声音就好了”

cb5f60182bc43aaedeeba16f7ef58ec1.png

图片 阿卷用自创比划手语交流

言语能力健全的人,训练一个自己的声音模型是早已成熟的技术。但这种训练方式,却让最需要机器辅助表达的言语障碍者屡屡受阻。为失声者定制一个既符合先天条件,又满足个人偏好的专属声音,真的不可能吗?我们咨询了语音技术团队的负责人王育军老师,几天后他回复道:“理论和技术上都可行,技术团队也有兴趣,但如果没有真实用户参与反馈,就很难落地。”

——这就是此项目的缘起。对技术同学们来说,它是个触及技术盲区的挑战,所以大家愿意积极地参与,除此之外,这种热情也来源于“和真实用户的直接合作”的机会,这对于算法团队并不常有。

123dd96bbc20160ec74398566c904d31.png图片 语交流语音技术团队负责人王育军

通常在工作中直接和用户交流的,往往是产品或运营,而算法、研发类的技术人员会“躲”在他们身后,接收被翻译、汇总过的“技术语言”。这当然有效率上的好处,但有时候也会让人疑惑“这真的是用户的本意吗?”

这次,大家的疑惑可以立刻被解答。阿卷和技术团队就在一个群里,每收到一个新版本的软件包,阿卷总是第一时间安装试用,通过他细腻的听觉感知,向群里的技术同学发出“连环追问”:“声音有点机械。” “怎么感觉一卡一卡的?” “为什么云端的音质和本地的不一样?”

负责语音合成算法的丰煜第一次在群里遇到阿卷的反馈时,懵了一下——“产品经理呢?没有?那这是要我来回答?我该怎么说他才能听懂呢?”他默默地组织了几遍语言,一面怕自己说得太技术了,对方不好理解,一面又担心回复慢了,对方会心生不快,“心里慌得不行”。他顺着阿卷的问题,一步步深挖他对于“机械”“卡顿”“不一样”的定义和感受,再对应自己听到的声音,寻找这个问题背后可能的技术和参数原因

3d9179b09786338bfb99d2af57b5b9d2.png图片 技术团队负责语音合成算法的丰煜

随着与阿卷的交流越来越多,丰煜越来越能与阿卷“共情”,很多问题阿卷一指出来,他就能大致上判断是声码器、模型还是语料问题了。用丰煜的话说,去除了用户感知被“转译”的过程,他相当于被训练了“用户主观感知”与“技术方案”之间的映射关系。渐渐熟悉和放松下来的俩人,越来越像是在一起讨论问题最优解的一对儿搭档。阿卷一不小心就跨越了用户与测试的边界——因为没有人比他更懂自己的“真需求”。

同时,阿卷对个人需求的大胆表达,也是丰煜持续打磨这个声音的灵感和动力,他说:“如果没有阿卷积极参与进来,可能我们最初那版很粗糙的声音就已经交付了,因为阿卷不断地使用和反馈,提出新的问题和期待,我们就会不断地去搜论文、想办法,最终才有了这一版声音。”

过去,企业的技术、产品、设计,对于普通用户而言,是遥远的“造物者”。随着媒介的变化,越来越多的人可以发出自己的声音、表达自己的诉求,在源源不断的反馈中,产品的创造者也得以离真实的需求、真实的感受更近,校准更快了。

与用户交朋友,意味着我们彼此尊重,彼此信任。平等和尊重便是我们从这个过程中体会和学习到的。

02 

预研探索

让“可能”变成“能”

看着阿卷投入了时间和精力,我们也会略微不安,声音捐赠作为技术预研,有不成功的风险,我们不想让阿卷失望。但恰恰是有分量的挑战,才能激发大家源源不断的创造力,真正的挑战没有既定的解决方案,也没有明确的终点,每一个参与者都可以在解决问题中挖掘、拓展自己的能力,开辟新的路径,有更高的追求。这个过程不会是坦途。

在丰煜完成阿卷的声音模型后,新的问题自然就产生了——如何让阿卷在手机上运行声音模型呢?一般情况下会选用云端服务,但这忽略了无网络场景,因此如果能把离线版语音包迁移到阿卷手机上,体验就会更好。

ac4493b1a06a310c974a2a62efce5888.png

图片 春亮与阿卷的合影

春亮在AI实验室负责算法跨平台移植与优化,事实上他一直在预研离线语音的相关技术,但苦于没有真实场景可以进一步探索落地。当阿卷的需求出现在春亮面前时,他的第一反应是:“慈善秀吧?随便搞一下好了。”但很快,他发现这次是来真的!

第一个难点就是,技术人员基于Linux系统训练的声音模型,并不能直接用于阿卷Android系统的手机。尽管Android与Linux系统同源,但因为每台设备都有独自的交叉工具链,只有先对“声音算法”进行匹配工具链的编译,才能适配阿卷的手机。

除此之外,构成这个算法的声学模型(self-attention)和声码器(melgan)网络结构比较复杂,如果利用开源的第三方库进行推理,在配置较低的手机上运行时,会出现音频卡顿、文字转语音运算时间长等问题,阿卷用于日常沟通时会有困扰。因此必须做出更“聪明”的推理库来提升感知水准,这在业内是个新鲜事儿,为此,语音合成组成功自研出mittsce推理库,实现了离线模型的落地,也满足了又快又好的声音需求。但这场“马拉松”还没跑完…

4177c69298f6cc4639a112544c672259.png图片 算法模型跨平台编译示意图

由于阿卷作为up主常要制作视频,但用手机生成语音再传到电脑剪辑过于费力,因此新的需求产生了——一个电脑端运行的语音生成器。

面对这个新需求,春亮也只能“摸石头过河”,因为阿卷的声音模型和mittsce推理库都是基于Linux系统开发,可阿卷的电脑系统与Linux系统并不兼容,就无法像手机版离线包一样,通过推理库编译来实现跨平台运行。

而要基于电脑系统重新开发推理库的话,也不是不能做,但太耗时了,一切都要回归开发的原点,于是春亮想到了可以在阿卷的电脑上开辟虚拟机去安装Linux系统,然后再进行编译,这是当时最优性价比的方案,可我们也不确定能否成功,因为阿卷对Linux安装完全是个小白,再加上当时两个人因疫情只能线上沟通,操作的难度就更大了。但没想到阿卷愿意配合春亮去学习Linux安装,很快就在电脑上实现了声音生成,这对我们来说是个意外惊喜。

其实之前我们都曾构想过如何让小爱同学的离线语音模型快速落地,但一直没有真实的场景,而这次定制声音离线包在手机端和电脑端的成功运行,让预期的时间缩短了,也积累了很多经验。

在工作中,大家通常在一个既定的框架下配合,主动权有限,但这次的预研相对独立,就让技术人员跳出了固有的解决模式,探索出了更多的路径,对未来的工作也颇有助益。

03 

在任务中

一边改变,一边成长

在满足用户真实需求的同时又挖掘了技术的新路径,已经算得上两全其美,但大家觉得收获不止这些。做这个项目之前,很多同事没有接触过障碍人士,总觉得无障碍很难,技术要求高,是专职无障碍团队的事,离自己很遥远。但当他们看到阿卷,听他讲述生活中问询、接打电话的简单场景时,发现竟全是自己熟悉的技术可以解决的问题——那为什么不能立刻做点什么呢?

项目上线前,宣发团队希望搭建H5捐赠页,让更多人可以参与这个项目,平日负责将算法封装打包应用的胡晓天“临危受命”。在此之前,他从未有过web开发经验,但因为实在太想把声音捐赠库建起来了, 整个五一假期都在上网找资料、挨个“问大神”,终于在上线前一天实现了H5页面的基本功能,甚至现学现卖做好了无障碍适配。当项目上线,随着影片的传播,后台涌入了6000多份声音样本,他说“我终于感觉到我的技术是被人真正需要的”

98eaa1220811cebc6c071bf670cc01ea.png

图片 阿卷在使用定制声音和朋友聊天

7月份,阿卷从青海来和我们相聚,很多线上交流发现不了的问题呈现在大家面前——阿卷需要先打字后“发声”,有时刚打完想说的话,大家已经聊到了下个一话题,这在线上打字交流时很难被发现。面对这个仍不够便捷的使用过程,丰煜开始思考,后续的优化该如何降低实施率、提高稳定性。

而负责将阿卷声音上线到小爱通话的鑫然,在听说市场上几十万的定制声音报价后,开始琢磨在现有的技术下,如何将这次为阿卷做声音的过程,变成可复制的流程,让更多障碍人士用上“自己的声音”

6a493b192bfd63ac9f7c9e8a725b260f.png

图片 小爱通话的鑫然

事实上,只有当一件事从“特殊”、“特例”回归平常,它才开始获得真正的生命,才有可能持续地为需要它的人服务。人的需求,不会因为项目结束而消失,技术的发展也不会停下脚步,我们只想借这个小事停下来想想,技术的发展一定要先抛弃一些“边缘需求”吗?是否可以尝试从“边缘”中,汲取更广阔的视角和思考?

我们也希望这样的预研项目,能让更多用户可以从“提出bug”变成敢于提出对“美好生活”的想象,激励我们不断探索新方案。

因为只要有言语障碍者存在,只要每个人都有面对临时失声的可能,只要人类的沟通还存在这样那样的问题,那么辅助沟通技术(AAC)便永远都有存在和精进的价值,这个价值终将惠及每一个人的所需。声音捐赠,只是一个小小的切口。

真正的学习,总是从真实中来,回到真实中去的。在不断的探索中修正观点、反思自我,而后继续发现新问题,结合新的环境和条件去解决它。我们希望小米的每一位技术人员,都可以从这一过程中,发现技术之用,体悟技术之美。

615bbfdf4f43b02a2bb7b23babcf57a0.png

图片 声音配型捐赠项目成员合影

声音配型捐赠项目使用了小米自研的声音适配算法、超级拟人技术、mittsce推理库等技术,其中“超级拟人语音合成技术适配特殊群体提升无障碍体验”已经申请专利。

97eb411c0aa8da6f0c7d6e40482704be.gif

a205f8b2d82c3031c7e4eb6fd8274dae.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值