日前,在哔哩哔哩视频平台上,“AI孙燕姿”成为新晋顶流网红。它翻唱周杰伦的《发如雪》、郭顶的《水星记》、赵雷的《我记得》等,虽然演唱并无感情注入,仍受到网友疯狂追捧,点击量最高的已过百万。据直新闻统计,截至5月11日晚8点,当天哔哩哔哩上发布的AI孙燕姿视频近100个。QQ音乐、网易云音乐播客板块也相继出现了AI孙燕姿歌曲合集。
用AI克隆某位歌手的声音去翻唱另一位歌手的歌曲,这是目前AI视频玩家们最喜欢的玩法。比如,让“AI孙燕姿”翻唱南拳妈妈的《小时候》,让“AI周杰伦”翻唱陈奕迅的《富士山下》。
AI冲击就业已然显现
“十年内制造大量输家”?
这也是继生成式AI引发绘画、摄影等领域部分艺术家抵制后,再次惹怒乐坛。但在其他领域,实打实的就业冲击已经显现。
微软日前发布的报告显示,经过调查发现,半数员工担心AI替代工作,但更多人希望能用AI减轻工作量,管理层大多持乐观态度,希望用AI提高生产力,提升工作效率,而非代替员工。但也有公司已经决定用AI代替部分岗位。
IBM CEO Arvind Krishna 在接受访问时表示,在5年内,IBM30%的人力资源部门等职位,即大约7800个工作岗位将被AI取代。这些职位的员工目前不会被解雇,但已停止招聘新员工,今后对人才的选拔也会更加谨慎。
AI实验室DeepMind联合创始人之一苏莱曼9日在旧金山的一个论坛期间说,AI的进步将威胁到白领人群,并在未来十年内创造“大量输家”。政府需要考虑如何支持那些工作将被取代的人,“这需要物质补偿”。
据了解目前B站上与“AI孙燕姿”有关的视频已经近千条,翻唱歌曲包括民歌、童谣、动漫主题曲、流行歌曲等众多类型。其中AI孙燕姿翻唱的《下雨天》《发如雪》在B站点击量破百万。
AI孙燕姿蛮好听的,简单记录一下背后的技术点,是一种音色迁移,不是现在火的文字合成音频,有点像之前的图像风格迁移。
AI歌手主要涉及了歌唱声音合成(SVS,singing voice synthesis)和歌声转换(SVC,singing voice conversion)两个技术,歌声合成是让AI歌手直接演唱用户输入的乐谱,歌声转换是输入一个“原唱”的声音,将原唱转换成目标歌手的声音,类似声音版的AI换脸。目前,歌声合成和转换的开源模型并不难寻,比如“so-vits-svc”
SCV = Singing Voice Conversion
抽取一个人的声音作为训练数据,训练一个神经网络模型,学习他的声线;然后用模型在目标歌曲上做推理,即可实现用自己的声线唱目标歌曲。
1 准备数据集
一般可以从孙燕姿的歌曲、演唱会、采访、直播里面抽取人声,
然后稍微微调就可以,不过这里不同的加工手法,生成的质量不一样,可以用的工具非常多。
1. 原始声音处理。准备一段高品质、清晰的演唱音频,并去掉背景音乐提取人声
2. 推理过程。启动 webui.bat 并使用推理功能,选择模型与配置文件,加载模型后勾选「聚类f0」「F0均值滤波」两个选项,并通过音频转换生成音乐
3. 音轨合并。
2 训练
1. 数据准备。准备质量比较高、人声比较清晰声音素材,并对素材进行格式转换、半轴分离、文件分割等处理
2. 模型训练。识别数据集、数据预处理、设置参数、开始训练,并获得模型保存的结果
3. 音轨合并。