语音分离:
1)分离噪声: 降噪
2)分离混响:降混响
3)分离人声:说话人分离
4)分离回声:回声消除
TasNet 系列在语音分离方法有不错的表现,有用到降噪&说话人分离&回声消除等方面,采用的是 encoder + seperator(generate mask) + decoder 的结构;主要提出的点有:
1) time-domain (对比时频域算法,用encoder 和 decoder 来替代stft 和 istft 类似的变换。可以不需要考虑是否保留phase和频域分辨率等考虑);
2) end-to-end的模式且可以实现casual的inference;
但是按照论文的结果和自己的实验的一些结果来说,不一定能代表时域的方法就比频域的方法要好(不同的参数的选择,不同的模型结构);
TasNet
中间的seperator 使用LSTM结构来捕捉time sequence 的信息;
Conv-TasNet
中间的seperator 使用TCN 的结构来捕捉time sequence 的信息,LSTM的几个问题:
1)长序列LSTM收敛困难问题;
2) LSTM 参数量大,不能并行计算;
3)长依赖的不定性;
这里面改成TCN之后,还采用了residual的结构,seperable conv, global layer norm 等来提升效果
Multi-Stream Conv-TasNet
mulit-stream conv-tasnet 是tasnet 在aec 回声消除方面的改进:
主要的区别是针对aec的far-end 和near-end 的输入增加了对输入数据的处理:
dˆ(n) 是 adaptive filter的输出;
sAEC(n) = residual echo + background noise + the near-end signal;
在TCN的shallow block中将 dˆ(n) 和sAEC(n) 作为输入可以假设计算之间的相关性;
论文给的实验结果看起来不还错,需要再验证;
本文由博客群发一文多发等运营工具平台 OpenWrite 发布