单通道实时语音分离的TasNet结构总结

置顶

dakenan1

于 2019-09-15 02:00:31 发布

阅读量5k

点赞数 1

分类专栏：语音分离文章标签：机器学习 Tasnet 语音分离波形重建

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dakenan1/article/details/100011663

版权

本文总结了TasNet在语音分离中的应用，它采用时域音频分离网络，通过非负编码器输出执行声源分离。与STFT相比，TasNet解决了相位处理问题，并能在低延迟下实现高效分离。实验表明，TasNet在因果和非因果系统中均优于基于T-F的系统，并具有更好的频率分辨率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

核心工作：提出使用时域音频分离网络，即编码器-解码器框架直接在时域对信号建模，并在非负编码器输出上执行声源分离。
STFT缺点：
1. 提出傅里叶分解并不一定是最优的语音分离信号变换
2. STFT将信号转换为复数域，但不能很好的处理相位谱
3. 频谱有效分率需要高频率高分辨率，否则会产生时延
TasNet：
在这里插入图片描述
1. N个非负加权基础信号表示混合语音波形；
2. 基础信号的权重来自于编码器输出，基础信号即解码器的滤波器；
3. 估计权重（非负）可以表示为每个声源对混合权重贡献的掩模，类似于STFT中的T-F掩模
4. 解码器学习后重建声源波形
实验结论：
在这里插入图片描述
1. 与单向LSTM构成因果系统，优于使用T-F的系统；与BLSTM构成非因果系统，同样效果更好；

2. 我们系统中每个段的平均处理速度小于 0.23 ms，导致系统总延迟为 5.23 ms。相比之下，基于 STFT 的系统至少需要 32 毫秒的时间间隔才能启动处理，此外还需要处理时间STFT、分离和反向STFT的计算&

最低0.47元/天解锁文章

博客等级

码龄7年

14
原创

95
点赞

602
收藏

34
粉丝

关注

私信

热门文章

分类专栏

最新评论

为什么八位二进制数表示范围为-128~+127？
做而论道_CS: 一个字节是 8 位 2 进制数。可以构成 2^8 = 256 种编码，用来表示 256 个数字。用其中的一半（128 个）表示 128 个负数：　－1 ～－128；用另外的一半（128 个）表示 128 个非负数：　　0 ～＋127。综合，就是补码的表示范围：－128 ～ +127。这些连续的数字，既不重复，也无遗漏，实现了完备性。补码的表示范围，就是这么确定下来的。－－－－－－－－－－－－－－－－－－－－－－原码和反码，可就不那么合理了。同样是 8 位 2 进制数，都有 2^8 = 256 种编码。但是，针对一个 0，却都重复编了两个编码：+0、-0。因此，它们所表示的数，必然就比补码少一个。 8 位的原码反码，都只能表示：－127 ～ +127。－－－－－－－－－－－－－－－－－－－－－－原码和反码，只能表示 255 个数字。它们都表示不了－128，这就是它们的缺陷。原码和反码都是 “残疾的乱码”，计算机并不使用它们。所以，在计算机系统中，数值，一律采用补码表示和存储。
语音驱动的口型同步算法文献汇总
孙美琪82: 去哪能搞到需要的数据和源码
Random函数用法
喆中: 老是出现这种事情
Random函数用法
星星能退换: 后面改成random.shuffle(s) print (s)
Random函数用法
喆中: #random.shuffle()如果你想将一个序列中的元素，随机打乱的话可以用这个函数方法。 s=[ ] while True: a=input() if a=='0': break s.append(a) print(s) print(random.shuffle(s)) ‘为什么我的结果是None，求解答’

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。