“只需几分钟的训练素材视频和1000美元成本,品牌方就能实现全天候直播售卖产品。”
来源:MIT Technology Review文章,小冰 (左右); 硅基智能 (中)
麻省理工科技评论发布的文章 “Deepfakes of Chinese influencers are livestreaming 24/7” 中提到上述内容,让全世界看到了中国的AI数字人技术如何应用于电商行业中,并拥有着怎样巨大的降本增效优势。
近年来,随着直播行业的兴起,为电商行业注入了增长新动力。快速的深度合成训练、全天候24小时直播、在AI技术的加持下,实现数字人主播高效且低成本的普及。
01 大模型和数字人深度融合
2021年是数字人的元年,2022年底大语言模型ChatGPT上线,2023年语音、文本、多模态的大模型呈现井喷似发展。
在大模型的加持下,无论是文本还是语音的输入都会经过大模型识别,将用户意图理解分析之后经过模型决策给出反馈。
在这个过程中,会涉及到很多不同的定制化场景。包括数字人的形象、动作、应用场景、预设话术等。这些定制化设计需要在大模型的基础上做进一步微调,将原始性能较好的语音合成等模型自适应到需求场景、音色或业务中。

1. 语音合成
- 文本到语音的转换:将文本信息转换为自然的语音输出,需要依据自然语言处理和知识图谱给予的文本合成相应的语音。
- 语音情感合成:又称为声音表情,通过语音合成为虚拟主播添加不同的情感色彩,以使对话听起来更加自然和生动。
- 语言理解与回应:虚拟主播能够根据自然语言处理模型的分析结果理解用户的语音输入,并作出相应的回应。
2. 表情管理
- 表情识别与模仿:AI虚拟主播通过分析真人的面部表情,学习并模仿相应的面部肌肉运动同时给出相应的微表情。
- 情感计算:虚拟主播能够根据自然语言处理结果理解文本中的情感色彩,并调整自己的面部表情以匹配相应的情感。
- 自然语言情感分析:通过分析对话文本,理解并展现相应的情感状态,如高兴、悲伤、惊讶等。
3. 动作技巧
- 身体动作捕捉:使用摄像头和传感器捕捉真人的动作,并通过算法转换为虚拟角色的动作。
- 动画渲染:通过先进的计算机图形学技术,创建出流畅自然的虚拟角色动作。
- 互动式动作反馈:虚拟角色能够根据与用户的互动,调整自己的动作和反应,增加互动的真实感。
利用先进的大模型技术,数字人的表达、交互能力不断提升。可以与用户进行实时对话和互动,熟练理解和满足用户需求,还能够根据需求量身定制的服务和支持。在大模型的辅助下,数字人商业应用领域包括客服、营销、教育、社交媒体、游戏、娱乐和文旅等。
随着技术的进步,数字人的应用范围也将进一步扩大。只需要少量的垂域数据微调或者自适应就可以快速定制的符合用户偏好的数字人,更好帮助客户实现降本增效。
02 垂域数据是关键
大模型适配数字人的过程中,垂域的语音数据是必不可少的。
如上面语音合成大模型,在定制电商直播领域的数字人时,需要相对应的垂域数据进行微调,从而使得大模型对应用场景更加匹配,符合用户偏好。
在定制个性化音色时,同样需要符合目标音色的语音数据,引导模型合成目标音色。
海天瑞声拥有大量的垂域数据,这些数据一方面可以用来对大模型进行自适应微调,另一方面可以单独用来构建或者研究语音合成技术。
语音合成数据:中文女声-直播带货 King-TTS-241
该数据集由一位女性声优在专业录音棚完成录制,内容主要针对直播带货场景,声音积极具有表现力。
语音合成数据:中文男声-多情感&多场景 King-TTS-142
该数据集包含中文男声多情感多场景的直播带货语音合成数据,包含直播带货、导游等领域,以及开心、伤心、惊讶、生气、害怕等情感。
多模态数据:数智人多模态合成数据集 King-AV-046
该数据集包含直播带货、都市女性、虚拟女友等应用领域,共25类直播常见手势。使用4K摄像机,正面拍摄于绿幕棚。灯光包含面光、侧光、背景光等多个位置,保证光线均匀明亮。