导读
扩散模型的发展引起了各界对生成模型的广泛讨论,推动了语音、音频、图像等模态的理论模型进步。6月10日的北京智源大会“生成模型”论坛邀请了斯坦福大学副教授Stefano Ermon、浙江大学教授赵洲、智源研究院研究员刘广、加州大学洛杉矶分校助理教授周博磊、斯坦福大学助理教授吴佳俊,共话生成模型领域的最新进展,展开了别开生面的前沿讨论。
使用分数而不是可能性是建模分布的关键思想。-- Stefano Ermon
音频比文本更复杂,不止包含语义信息,也包含韵律、时长、能量、音高等属性。-- 赵洲
数据混合扩充的方式可能是个正确的方向。-- 刘广
把生成模型和机器决策结合起来,可以提供一些新的思路。-- 周博磊
利用自然界中存在的丰富的结构、符号和程序,是为了在视觉世界中更好地感知和理解。-- 吴佳俊
论坛专家名单
李崇轩 |中国人民大学准聘助理教授
Stefano Ermon | 斯坦福大学副教授
赵洲 | 浙江大学教授
刘广 | 智源研究院研究员
周博磊 | 加州大学洛杉矶分校助理教授
吴佳俊 | 斯坦福大学助理教授
朱军 | 清华大学教授、智源首席科学家
Recent advances
in score-based diffusion models
Stefano Ermon | 斯坦福大学副教授
图像生成技术的基础是构建一个能够理解自然图像结构的模型,模型需要理解什么样的像素序列是合理/不合理的。这种模型还可以被用来检测对抗性攻击,或者找出机器学习系统的输入是否有问题。
建立一个复杂的生成模型是有挑战性的,因为概率分布需要建立在非常高维的空间上,同时模型需要能够为大量可能的对象分配概率。
得分函数是对数密度函数的梯度,通过得分函数,可以直接使用任意神经网络进行建模。这是一项关键创新,使我们能够使用更强大的神经网络来开发图像的概率模型。
将目标函数重写为等价形式,实际上是试图最小化在不同数据点估计分数的范数,同时最小化在训练集中的数据点评估分数的雅可比轨迹。当处理高维数据时,可以比较它们的随机投影而不是直接比较梯度的向量场,可以扩展到像图像这样的高维数据集,仍保留分数匹配、一致性和渐近正态性的许多良好性质。
所有这些优秀的图像-文本-图像生成模型的核心是这种基于郎之万动力学估计数据分布的得分的想法。扩散模型允许以一种非常自然的方式控制生成过程,可以应用于不同数量的投影和不同类型的测量。
使用分数而非概率是建模分布的关键思想,能够使用任意的神经网络来对梯度的矢量场进行建模,可以在不使用对抗性方法或者在极大极小的情况下,使用扩散模型进行可控生成,从这些模型中进行采样,不仅可以生成样本,而且在样本中可以评估模型下的可能性。
多模态生成式语音模型
赵洲 | 浙江大学教授
本次报告从三个角度来介绍生成式模型在声学模型的应用:生成语音的NATSpeech模型;语音生成歌声的DiffSinger模型;生成音频的Make-An-Audio模型。音频生成也是一种语音生成。其 框架,一般由三个部分组成:(1)前端。通过NLP的技术从文本中提取发音、韵律;(2)给定音素,合成频谱;(3)声码器,输入频谱图,输出语音。