置换性不变训练（PIT）单通道语音分离（SS）入门

最新推荐文章于 2023-12-21 17:46:36 发布

dakenan1

最新推荐文章于 2023-12-21 17:46:36 发布

阅读量3.9k

点赞数 2

分类专栏：语音增强文章标签： PIT 语音分离深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dakenan1/article/details/99994845

版权

核心工作：提出一种通过最小化分离误差解决标签排列问题的排列不变训练技术。
在这里插入图片描述
基于类的方法：
1. 通过预测所属目标类的源来进行网络优化，通常用于每个时频块；
2. 只能用于语音与背景噪声或音乐的分离，因为语音具有与噪声/音乐非常不同的特征；很难与其他技术结合。
针对标签模糊问题解决核心：（参考Fig.1）
1. PIT
2. 基于分段的决策
实验结果（T1）：
在这里插入图片描述
1. 训练阶段，MSE验证不会因为标签排列问题降低；相反使用PIT还可以使训练快速收敛到两、三声源的MSE
2. 测试阶段，默认分配没有声源追踪的PIT能够得到相近甚至更好的效果，与DPCL、DNN、CNN等比较，且结构更简单
3. 减少输出窗口大小时，可以提高窗口内的分离性能，并且进行选择性分配时得到更好的SDR
4. 减少输出窗口时，也会出现默认分配情况下效果更差的情况，因此说明选择性分配或者声源追踪很重要
5. PIT在开闭集中对未知的声源都有很好的效果
6. CNN因强大的模型效果始终优于DNN，但在输出窗口较小时效果变差
实验结果（T2）：
在这里插入图片描述
PIT学习的分离能力不仅可以在说话者之间进行，而且可以跨语言进行

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
置换性不变训练（PIT）单通道语音分离（SS）入门

核心工作：提出一种通过最小化分离误差解决标签排列问题的排列不变训练技术。基于类的方法：1. 通过预测所属目标类的源来进行网络优化，通常用于每个时频块；2. 只能用于语音与背景噪声或音乐的分离，因为语音具有与噪声/音乐非常不同的特征；很难与其他技术结合。针对标签模糊问题解决核心：（参考Fig.1）1. PIT2. 基于分段的决策实验结果（T1）：1. 训练阶段，MSE验证不会因...
复制链接

扫一扫

专栏目录

dakenan1 CSDN认证博客专家 CSDN认证企业博客

码龄7年

14: 原创

7万+: 周排名

72万+: 总排名

12万+: 访问

: 等级

826: 积分

34: 粉丝

94: 获赞

33: 评论

603: 收藏

私信

关注

热门文章

分类专栏

最新评论

为什么八位二进制数表示范围为-128~+127？
做而论道_CS: 一般化：－X 的补码是什么？　就用二进制计算 “0－X”。＋X 的补码是什么？　就用二进制计算 “0＋X”。但是，0＋X = X ！　这就不用算了吧？正数，只要变换成二进制，就是补码了。正负数的补码，就是这么推导出来的。简不简单？　意不意外？根本就没有 “符号位原码反码取反加一符号位不变”。老外算术能力差，减法做不好，才不得不整这些个烂事。我们的老师水平洼，看不透事情的本质，就知道讲这些没用的！
为什么八位二进制数表示范围为-128~+127？
做而论道_CS: 数值－2，就应该是 “0－2” 了。你用二进制算吧，结果一定是：1111 1110。数值－128，就应该是 “0－128” 了。推导如下：　　　　 0000 0000 　　　－ 1000 0000 －－－－－－－－－－－（借位） 1000 0000 所以，－128 的补码就是 1000 0000。
为什么八位二进制数表示范围为-128~+127？
做而论道_CS: 哪有什么 “模” 呀！求补码，也用不上所谓的 “模” ！你如果懂得二进制的加减运算，求补码，就是十分容易的。计算机做运算时，二进制的位数，是固定的。八位机就是计算八位二进制数。同样还有16 位机。。。数值 0，在八位机中，就是 0000 0000。数值－1，存在八位机中，应该就是 “0－1”。究竟是什么呢？用二进制推导如下：　　　　 0000 0000 　　　－ 0000 0001 －－－－－－－－－－－（借位） 1111 1111 看到了吗？八位的结果就是：1111 1111。（借位，并不在八位数之内，不必考虑。）－1 在计算机中，就是 1111 1111。【1111 1111，这就是－1 的补码。】
为什么八位二进制数表示范围为-128~+127？
做而论道_CS: 一个字节是 8 位 2 进制数。可以构成 2^8 = 256 种编码，用来表示 256 个数字。用其中的一半（128 个）表示 128 个负数：　－1 ～－128；用另外的一半（128 个）表示 128 个非负数：　　0 ～＋127。综合，就是补码的表示范围：－128 ～ +127。这些连续的数字，既不重复，也无遗漏，实现了完备性。补码的表示范围，就是这么确定下来的。－－－－－－－－－－－－－－－－－－－－－－原码和反码，可就不那么合理了。同样是 8 位 2 进制数，都有 2^8 = 256 种编码。但是，针对一个 0，却都重复编了两个编码：+0、-0。因此，它们所表示的数，必然就比补码少一个。 8 位的原码反码，都只能表示：－127 ～ +127。－－－－－－－－－－－－－－－－－－－－－－原码和反码，只能表示 255 个数字。它们都表示不了－128，这就是它们的缺陷。原码和反码都是 “残疾的乱码”，计算机并不使用它们。所以，在计算机系统中，数值，一律采用补码表示和存储。
语音驱动的口型同步算法文献汇总
孙美琪82: 去哪能搞到需要的数据和源码

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。