语言处理之 Speaker Embedding

才大难为用

已于 2022-06-20 19:28:38 修改

阅读量1.3k

点赞数

分类专栏：自然语言处理文章标签：语音识别人工智能深度学习

于 2021-02-20 15:01:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HeroIsUseless/article/details/113882300

版权

embedding表示的是一个mapping，是指将说话人的特征映射在一个超维空间中，特定说话人A的语音特征X只能被说话人A的语音特征Y所对应。这就可以进行识别了，那么合成也不难了。

Embedding经常用于风格转换，例如油画风格。

实际上这也是一个神经网络。反正是提取特征嘛，大致框架是，可以类比图像的风格转换，风格转换的基本就是将内容和风格区分开来.

风格转换就呼之欲出了，即两种loss的加权。

图8中是分别采用风格损失函数和内容损失函数进行图像复原，上半部分是在不同层次的特征图上进行风格损失函数计算得到的不同的风格重建结果。下半部分则是在不同层次的特征表示上计算内容损失函数得到的不同的内容重建结果。而将这两种损失函数加权组合起来，就得到了一张具有图像B的风格和图像A的内容的图像了。

快速风格迁移的网络结构包含两个部分。一个是“生成网络”（Image Transform Net），一个是“损失网络”（Loss Network）。生成网络输入层接收一个输入图片，最终输出层输出也是一张图片（即风格转换后的结果）。模型总体分为两个阶段，训练阶段和执行阶段。模型如图所示。其中左侧是生成网络，右侧为损失网络。

训练阶段：选定一张风格图片。训练过程中，将数据集中的图片输入网络，生成网络生成结果图片y，损失网络提取图像的特征图，将生成图片y分别与目标风格图片ys和目标输入图片（内容图片）yc做损失计算，根据损失值来调整生成网络的权值，通过最小化损失值来达到目标效果。

执行阶段：给定一张图片，将其输入已经训练好的生成网络，输出这张图片风格转换后的结果。

我们将Speaker Embeddin

最低0.47元/天解锁文章

才大难为用

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。