口述 | 李秀林 (标贝科技联合创始人&CTO)
采访、编辑 | 黄臻曜
来源 | 36Kr
语音交互以假乱真,已是显性诉求
疫情期间,整个智能语音行业的表现算是比较好的,语音解决了很多非接触(手动)人机交互的应用场景。比如声控电梯、心理诊断问答资讯、疫情防护宣传制作、商业街区写字楼语音动态播报等。
像新出现的场景“非接触的语音控制电梯”,和我们之前一直在使用的智能家居里的芯片组或者算法基本一致,将它们和电梯的控制按钮集成后就能应用,难度不大。所以在疫情的催化下,只是需求量变多了,原来不用这些产品或者技术的公司开始考虑用到这些技术,以及增加了少量新的场景,但在应用难度上并没有太大的挑战。
但此次疫情让人们看到了智能语音的市场空间、应用场景和巨大的市场价值,推进了语音技术与应用场景结合:
1、市场教育:以前习惯用手动操作,基于疫情期间,自身防护健康等角度出发,发现语音也是一个很简单的交互体验。
2、广泛应用:疫情期间创造了很多强语音技术结合的场景。例如每天有大量疫情动态及防控等信息的通讯需求,通过语音合成技术,可以快速、规模化的将文本转为语音收取资讯,这部分的用户数据增长能达到10倍、甚至几十倍,我们也看到声控电梯、外部监测体感语音报警场景大量出现。
3、技术发展呈现多样融合的趋势。智能语音解决“听、说、懂”的问题,但应对疫情防护,不可能是单纯的语音层面产品形态,而是配合图像视觉、人脸识别、红外体感等技术,来打造针对疫情一线的综合防护与检测产品。比如大屏体温检测、医疗机器人送药问诊查询等应用。
这次疫情,对于很多公司来说也是一次考验。有成熟的技术和解决方案的公司,就能够快速落地,取得一些优势。
以语音交互领域为例,目前语音合成技术和语音识别技术,相对来说具有较高的成熟度,而语义理解相对来说还比较薄弱。我认为,接下来行业对语音的探索不单会停留在“可用”上,还会考虑给用户带来更好的体验。声音在交互的时候,如何能给人带来更自然、贴心、温度,并达到以假乱真的体验,这已经从一个潜在的诉求变成一个显性的诉求。
“声音复刻”是痛点还是痒点?
在疫情期间,我们看到出现了几种情况:1、很多家长和孩子,因为疫情无法上班、上学,也无法外出,居家的时间大幅增长,陪伴辅导孩子的任务骤增;2、有些家长由于支持抗疫或者受疫情影响无法返家,造成春节假期也无法团聚,相互思念;3、有些疫情严重地区,出现感染新冠肺炎的患者死亡的现象,为自己或者自己的亲人留下更多的记忆,也变成了一种生死离别下的重要诉求。
我们观察到上述的情况后升级了我们之前的产品“标贝留声机”,它能够复刻父母声音,给孩子讲故事,这在家长圈里引起了广泛注意,声音复刻的数量增长了500%以上,1-4月份留声机的用户使用数据增长了200%。我们之前就有“声音银行”的概念,用户可以把声音存储在我们的云端系统上,就像在银行存钱一样。需要的时候,就可以应用这个声音,生成自己想要的内容。
在智能语音领域,留声机产品是一个新的技术应用,核心技术是如何利用少量的数据,实现一个高相似度的声音模型。大家可能之前看到过科学家霍金,在失去说话能力之后,可以依靠语音合成技术说话,觉得不可思议。随着技术的进步,这一技术的应用成本在大幅下降,每个人都可以拥有自己的声音。用户只需要录制5分钟语音内容,等待2小时左右即可获得用自己的声音想说就说的功能,这在之前其实是很难想象的。我们也在不断对技术进行升级,充分利用基于Attention的机制,以及迁移学习技术,去提升了声音复刻的效果,改善用户体验,让声音的还原度更高,听起来更像。但因为数据量比较小,如何保证稳定输出是训练这种模型时要面对的挑战。
我认为,声音复刻的需求是存在的,但可能只有很少的人知道现在已经有这样的技术能够满足此类需求,目前技术的宣传还远远不够。当然,也因为这个技术出现的时间比较短,语音不仅仅是信息载体,还承载了一个人的很多个人特点,包括音色、语气、语调、风格等,在技术上仍需要持续探索。对一个新的使用场景,也还需要全行业一起努力去推动它的落地,打造出有一个标杆性的产品,为用户所认识和接受,这还需要一定时间,这是一个以点带面的过程。只有技术服务提供的时间周期比较长,才能展现出它的实际价值,现在这个使用场景还处在一个打磨的阶段。
仅仅有声音还不够,声音结合图像,会有更为广阔的空间。近几年,短视频的蓬勃发展,也说明了声音+图像的巨大市场。因此,“虚拟人”这样的产品应运而生,它可以覆盖虚拟主播、虚拟员工、虚拟偶像等各类不同的场景,应用于新闻媒体、智能客服、智能银行、智能城市、泛娱乐应用等系统当中。
判断“留声机”、“虚拟人”这样的使用场景是否是刚需,可以从价值创造、及时性、便利性等不同的方面来分析。
比如,虚拟人如果可以代替部分人工,那会为公司节约人力成本,创造价值。只要是投入成本低于所节约的成本,企业就会乐于投入。比如智能客服为什么能快速发展,实际上是这些领域的客户尝到了甜头,在使用此类技术后,企业可以降低30%或50%的客服人力成本,大大提升整个财务状况,那么他就会继续扩大在这方面的投入。
又比如,传统的新闻播报有时效性,而录音难以实时满足,而且成本较高,采用留声机或者虚拟人技术,就可以随时低成本地生产内容,既满足了实时性的要求,又降低了成本。
再比如,短视频的编辑,变得越来越简单,但给视频配上匹配的声音,往往需要找配音演员,而且对声音的控制,也涉及到很多专业的知识。不过我们的技术现在还很难做到给影视作品配音,等到合成效果达到这个水平,我觉得会有彻底的变化。
逃不开的灵魂拷问
目前来看,“留声机”、“虚拟数字人”市场认知度、成熟度在不断提升,有些音频内容或者视频内容,已经融入了这些新技术产生的音频或者视频。但我觉得目前存在以下几点挑战,或者说思考的空间,值得全行业一起去寻找答案:
1、语音合成是科学与艺术的结合,比如声音复刻,一方面需要技术创新应用,怎么让声音效果更逼近人声效果,合成速度快、效果好的问题。另一方面,需要做创新性玩法,打磨出更稳定、更个性、更差异化的语音应用体验。后续需要考虑如何提高情感表达方面的技术,这绕不开“语义理解”这个环节的提升。
2、技术提供商提供的是核心的技术,每个具体应用的领域,都有其特殊性,需要深入了解行业,了解用户,这需要结合产品形态去做各个行业的探索,针对不同产品提供更好的解决方案,这不是一个复制粘贴的过程,比如在儿童教育场景,如何利用语音技术,针对不同年龄段开发功能,如何做到 “千人千面,如何能够持续良性发展,如何反哺技术研发,都需要深入考虑。
3、商业化问题需要持续关注。如果产品直接To C,那就要去验证用户愿不愿意付费的问题。我觉得实际上对留声机来说,它最终会是一个To C的产品。产品涉及到训练模型,提供线上服务,如果用户没有付费意愿,那商业化的问题就比较棘手。如果产品To B,比如我们会和玩具厂商、家居、汽车等有一些合作,如果此类合作伙伴不能有很好的商业模式,那么他们购买我们技术服务的动力也会很弱。那么对技术提供商来说,接下来一方面要考虑降低技术成本,让它更容易用很小的成本去尝试去推广,去验证它的商业模式;另一方面,也要帮助合作伙伴收集用户数据去做测试,不断迭代技术和产品,让它在市场端有更好的需求。
4、技术的应用,有时会面临技术有罪与无罪的争论。我相信大家都很关心安全风险以及监管的问题,这是一个风险点,但是它可能不会阻碍整个技术的发展。只是我们在应用技术的时候要权衡,是否需要让声音保留一些技术的特征。另外,也需要尽可能提高数据的安全性,比如我们开发了一套完善的账户管理体系,将复刻的声音或者定制的虚拟人进行授权,使之保留在一个特定的范围之内,以尽力保持这个技术的合法利用。随着这类场景不断普及,我认为也会陆续有相关的指导政策出台,以最大化降低相关问题出现的风险。如果要诈骗,其实一个真人去打电话,和让一个虚拟数字人去打电话,我觉得本质上没有区别,就像菜刀有人拿去切菜有人拿去砍人。所以如果做了该做的防范,遵守了相关的法律法规,在这个基础上保持一个相对开放的心态,可能会利大于弊。我们希望这个技术能够达到真人的效果,但当它快达到100%的时候又会有恐慌,这个问题非常复杂,其实很难有完全正确的答案。
5、理论上,低端、重复性的工作都可以用机器来代替,但是我们发现日常生活中还是有很多此类岗位存在。技术完全替代人,基本上可以认为是不可能的。但技术的发展在不断改变技术替代人的比例,随着人口老龄化,我们的劳动力越来越少,那么在各个行业它替代人的占比都会提升,这最终可能会变成一个社会问题。
目前来看,行业竞争关键也是考验语音技术与配套场景产品结合,未来一定会有大批玩家进入,不乏BAT这样的玩家。可以肯定的是,随着大批玩家的涌入,这个市场会愈发成熟,用户对新技术的接受程度会大大提升。当一个虚拟人或者智能体说话时能达到和真人一样的效果,我相信整个行业会迎来一个爆发。