embedding表示的是一个mapping,是指将说话人的特征映射在一个超维空间中,特定说话人A的语音特征X只能被说话人A的语音特征Y所对应。这就可以进行识别了,那么合成也不难了。
Embedding经常用于风格转换,例如油画风格。
实际上这也是一个神经网络。反正是提取特征嘛,大致框架是,可以类比图像的风格转换,风格转换的基本就是将内容和风格区分开来.
风格转换就呼之欲出了,即两种loss的加权。
图8中是分别采用风格损失函数和内容损失函数进行图像复原,上半部分是在不同层次的特征图上进行风格损失函数计算得到的不同的风格重建结果。下半部分则是在不同层次的特征表示上计算内容损失函数得到的不同的内容重建结果。而将这两种损失函数加权组合起来,就得到了一张具有图像B的风格和图像A的内容的图像了。
快速风格迁移的网络结构包含两个部分。一个是“生成网络”(Image Transform Net),一个是“损失网络”(Loss Network)。生成网络输入层接收一个输入图片,最终输出层输出也是一张图片(即风格转换后的结果)。模型总体分为两个阶段,训练阶段和执行阶段。模型如图所示。 其中左侧是生成网络,右侧为损失网络。
训练阶段:选定一张风格图片。训练过程中,将数据集中的图片输入网络,生成网络生成结果图片y,损失网络提取图像的特征图,将生成图片y分别与目标风格图片ys和目标输入图片(内容图片)yc做损失计算,根据损失值来调整生成网络的权值,通过最小化损失值来达到目标效果。
执行阶段:给定一张图片,将其输入已经训练好的生成网络,输出这张图片风格转换后的结果。
我们将Speaker Embeddin