技术人文｜声音捐赠，一场PBL式技术预研实验-CSDN博客

你有没有想过，在不能说话的情况下该如何向不识字的摊主点不加香菜的二两毛细（拉面）？

“用手比划？” “画在纸上？” “找别人帮忙？”

这个问题，阿卷每天都要用实际行动回答——掏出手机，输入想说的话，发送。手机里的语音引擎会把文字转变成语音，通过手腕上缠着的蓝牙随身音箱，洪亮地播报出来。如果忘了阿卷是谁，请戳下方视频。

视频声音配型捐赠纪录片

自5月13日项目发布至今，我们依然与阿卷保持联系，不断尝试新的使用场景。时至中秋，阿卷特别制作了一个小米月饼开箱视频送给大家。

视频阿卷小米月饼开箱分享

除了开箱月饼，我们还想给大家揭晓一个秘密——在声音配型捐赠“助人为乐”和“技术预研”的外表下，潜藏着一场PBL式的技术人员成长实验。

PBL，即项目式学习（project based learning），它是一种基于真实问题主动探索、研究、讨论、合作的学习方法。我们将PBL的模式融入到项目中，让每个技术人员都成为问题的探索者和解决方案的设计者，通过自主学习、团队协作、自我反思获得解决方案、探索技术落地；而基于实际的问题求解过程，也能让技术人员得到知识之外的更多体悟。

图片 PBL中的关键环节

和用户交朋友

就是学会相信他人的智慧

一直以来小米都坚持和用户交朋友，让用户参与产品的打造过程。在PBL的项目中，每一个参与者都是非常重要的一部分，要为问题的解决贡献智慧。声音配型捐赠项目集合了两种理念，随着项目的推进，我们和阿卷的关系也从“接受有挑战的需求”，到了“共破难题的伙伴”。

事实上这并不是阿卷一个人的需求，小米闻声和小爱通话上线后，很多听力、言语障碍用户都反馈过“系统音太像机器人容易被挂电话”。有人请朋友训练了一个模型，稍好些，但朋友打电话来就会不自在，“像是在跟自己聊天”，用户们说：“如果能有一个只属于自己又自然的声音就好了”。

图片 阿卷用自创比划手语交流

言语能力健全的人，训练一个自己的声音模型是早已成熟的技术。但这种训练方式，却让最需要机器辅助表达的言语障碍者屡屡受阻。为失声者定制一个既符合先天条件，又满足个人偏好的专属声音，真的不可能吗？我们咨询了语音技术团队的负责人王育军老师，几天后他回复道：“理论和技术上都可行，技术团队也有兴趣，但如果没有真实用户参与反馈，就很难落地。”

——这就是此项目的缘起。对技术同学们来说，它是个触及技术盲区的挑战，所以大家愿意积极地参与，除此之外，这种热情也来源于“和真实用户的直接合作”的机会，这对于算法团队并不常有。

图片 语交流语音技术团队负责人王育军

通常在工作中直接和用户交流的，往往是产品或运营，而算法、研发类的技术人员会“躲”在他们身后，接收被翻译、汇总过的“技术语言”。这当然有效率上的好处，但有时候也会让人疑惑“这真的是用户的本意吗？”

这次，大家的疑惑可以立刻被解答。阿卷和技术团队就在一个群里，每收到一个新版本的软件包，阿卷总是第一时间安装试用，通过他细腻的听觉感知，向群里的技术同学发出“连环追问”：“声音有点机械。” “怎么感觉一卡一卡的？” “为什么云端的音质和本地的不一样？”。

负责语音合成算法的丰煜第一次在群里遇到阿卷的反馈时，懵了一下——“产品经理呢？没有？那这是要我来回答？我该怎么说他才能听懂呢？”他默默地组织了几遍语言，一面怕自己说得太技术了，对方不好理解，一面又担心回复慢了，对方会心生不快，“心里慌得不行”。他顺着阿卷的问题，一步步深挖他对于“机械”“卡顿”“不一样”的定义和感受，再对应自己听到的声音，寻找这个问题背后可能的技术和参数原因。

图片技术团队负责语音合成算法的丰煜

随着与阿卷的交流越来越多，丰煜越来越能与阿卷“共情”，很多问题阿卷一指出来，他就能大致上判断是声码器、模型还是语料问题了。用丰煜的话说，去除了用户感知被“转译”的过程，他相当于被训练了“用户主观感知”与“技术方案”之间的映射关系。渐渐熟悉和放松下来的俩人，越来越像是在一起讨论问题最优解的一对儿搭档。阿卷一不小心就跨越了用户与测试的边界——因为没有人比他更懂自己的“真需求”。

同时，阿卷对个人需求的大胆表达，也是丰煜持续打磨这个声音的灵感和动力，他说：“如果没有阿卷积极参与进来，可能我们最初那版很粗糙的声音就已经交付了，因为阿卷不断地使用和反馈，提出新的问题和期待，我们就会不断地去搜论文、想办法，最终才有了这一版声音。”

过去，企业的技术、产品、设计，对于普通用户而言，是遥远的“造物者”。随着媒介的变化，越来越多的人可以发出自己的声音、表达自己的诉求，在源源不断的反馈中，产品的创造者也得以离真实的需求、真实的感受更近，校准更快了。

与用户交朋友，意味着我们彼此尊重，彼此信任。平等和尊重便是我们从这个过程中体会和学习到的。

预研探索

让“可能”变成“能”

看着阿卷投入了时间和精力，我们也会略微不安，声音捐赠作为技术预研，有不成功的风险，我们不想让阿卷失望。但恰恰是有分量的挑战，才能激发大家源源不断的创造力，真正的挑战没有既定的解决方案，也没有明确的终点，每一个参与者都可以在解决问题中挖掘、拓展自己的能力，开辟新的路径，有更高的追求。这个过程不会是坦途。

在丰煜完成阿卷的声音模型后，新的问题自然就产生了——如何让阿卷在手机上运行声音模型呢？一般情况下会选用云端服务，但这忽略了无网络场景，因此如果能把离线版语音包迁移到阿卷手机上，体验就会更好。

图片春亮与阿卷的合影

春亮在AI实验室负责算法跨平台移植与优化，事实上他一直在预研离线语音的相关技术，但苦于没有真实场景可以进一步探索落地。当阿卷的需求出现在春亮面前时，他的第一反应是：“慈善秀吧？随便搞一下好了。”但很快，他发现这次是来真的！

第一个难点就是，技术人员基于Linux系统训练的声音模型，并不能直接用于阿卷Android系统的手机。尽管Android与Linux系统同源，但因为每台设备都有独自的交叉工具链，只有先对“声音算法”进行匹配工具链的编译，才能适配阿卷的手机。

除此之外，构成这个算法的声学模型（self-attention）和声码器（melgan）网络结构比较复杂，如果利用开源的第三方库进行推理，在配置较低的手机上运行时，会出现音频卡顿、文字转语音运算时间长等问题，阿卷用于日常沟通时会有困扰。因此必须做出更“聪明”的推理库来提升感知水准，这在业内是个新鲜事儿，为此，语音合成组成功自研出mittsce推理库，实现了离线模型的落地，也满足了又快又好的声音需求。但这场“马拉松”还没跑完…

图片 算法模型跨平台编译示意图

由于阿卷作为up主常要制作视频，但用手机生成语音再传到电脑剪辑过于费力，因此新的需求产生了——一个电脑端运行的语音生成器。

面对这个新需求，春亮也只能“摸石头过河”，因为阿卷的声音模型和mittsce推理库都是基于Linux系统开发，可阿卷的电脑系统与Linux系统并不兼容，就无法像手机版离线包一样，通过推理库编译来实现跨平台运行。

而要基于电脑系统重新开发推理库的话，也不是不能做，但太耗时了，一切都要回归开发的原点，于是春亮想到了可以在阿卷的电脑上开辟虚拟机去安装Linux系统，然后再进行编译，这是当时最优性价比的方案，可我们也不确定能否成功，因为阿卷对Linux安装完全是个小白，再加上当时两个人因疫情只能线上沟通，操作的难度就更大了。但没想到阿卷愿意配合春亮去学习Linux安装，很快就在电脑上实现了声音生成，这对我们来说是个意外惊喜。

其实之前我们都曾构想过如何让小爱同学的离线语音模型快速落地，但一直没有真实的场景，而这次定制声音离线包在手机端和电脑端的成功运行，让预期的时间缩短了，也积累了很多经验。

在工作中，大家通常在一个既定的框架下配合，主动权有限，但这次的预研相对独立，就让技术人员跳出了固有的解决模式，探索出了更多的路径，对未来的工作也颇有助益。

在任务中

一边改变，一边成长

在满足用户真实需求的同时又挖掘了技术的新路径，已经算得上两全其美，但大家觉得收获不止这些。做这个项目之前，很多同事没有接触过障碍人士，总觉得无障碍很难，技术要求高，是专职无障碍团队的事，离自己很遥远。但当他们看到阿卷，听他讲述生活中问询、接打电话的简单场景时，发现竟全是自己熟悉的技术可以解决的问题——那为什么不能立刻做点什么呢？

项目上线前，宣发团队希望搭建H5捐赠页，让更多人可以参与这个项目，平日负责将算法封装打包应用的胡晓天“临危受命”。在此之前，他从未有过web开发经验，但因为实在太想把声音捐赠库建起来了，整个五一假期都在上网找资料、挨个“问大神”，终于在上线前一天实现了H5页面的基本功能，甚至现学现卖做好了无障碍适配。当项目上线，随着影片的传播，后台涌入了6000多份声音样本，他说“我终于感觉到我的技术是被人真正需要的”。