语音分离---TasNet

最新推荐文章于 2024-06-19 18:19:11 发布

啥哈哈哈

最新推荐文章于 2024-06-19 18:19:11 发布

阅读量5.1k

点赞数 3

本文链接：https://blog.csdn.net/cuifan0814/article/details/112180836

版权

语音分离：

1）分离噪声: 降噪
2）分离混响：降混响
3）分离人声：说话人分离
4）分离回声：回声消除

TasNet 系列在语音分离方法有不错的表现，有用到降噪&说话人分离&回声消除等方面，采用的是 encoder + seperator(generate mask) + decoder 的结构；主要提出的点有：
1） time-domain (对比时频域算法，用encoder 和 decoder 来替代stft 和 istft 类似的变换。可以不需要考虑是否保留phase和频域分辨率等考虑)；
2） end-to-end的模式且可以实现casual的inference；

但是按照论文的结果和自己的实验的一些结果来说，不一定能代表时域的方法就比频域的方法要好(不同的参数的选择，不同的模型结构)；

TasNet

file 中间的seperator 使用LSTM结构来捕捉time sequence 的信息；

Conv-TasNet

中间的seperator 使用TCN 的结构来捕捉time sequence 的信息，LSTM的几个问题：
1）长序列LSTM收敛困难问题；
2） LSTM 参数量大，不能并行计算；
3）长依赖的不定性；
file 这里面改成TCN之后，还采用了residual的结构，seperable conv， global layer norm 等来提升效果

Multi-Stream Conv-TasNet

mulit-stream conv-tasnet 是tasnet 在aec 回声消除方面的改进：
file 主要的区别是针对aec的far-end 和near-end 的输入增加了对输入数据的处理：
dˆ(n) 是 adaptive filter的输出；
sAEC(n) = residual echo + background noise + the near-end signal；
在TCN的shallow block中将 dˆ(n) 和sAEC(n) 作为输入可以假设计算之间的相关性；
论文给的实验结果看起来不还错，需要再验证；