- 博客(57)
- 收藏
- 关注
原创 linux下报错:ImportError: dlopen: cannot load any more object with static TLS ;ImportError: dlopen: cann
查了网上很多的解决办法,第一条的解决办法是import的顺序不对,但是我的包导的比较多,所以不知道具体的顺序是什么,而且之前都还是好好的,用了一下librosa这个包就出现错误了,改了好多版本的顺序都不管用。第二条是紧接着第一条的后面出现的,所以我两种出错都搜了,第二条总是说版本不对劲,我卸了安,安了卸的真的不太管用。我是一直报sklearn的错误,所以在我出错的那个.py文件里面import sklearn了以后,虽然这个包不用,就是在pycharm里面是变黑的,但是加上了真的报错就消失了,挺神奇的。
2023-03-27 20:36:56 1049 1
原创 运行代码出现OSError: dlopen: cannot load any more object with static TLS问题。
python导包出现错误。
2023-03-02 17:49:04 590
原创 《JOINT MAGNITUDE ESTIMATION AND PHASE RECOVERY USING CYCLE-IN-CYCLEGAN FOR NON-PARALLEL SPEECH ENH》论
语音增强
2022-08-10 23:24:50 863
原创 《Gated Recurrent Fusion with Joint TrainingFramework for Robust End-to-End SpeechRecognition》阅读
语音识别
2022-07-15 19:19:26 626
原创 Calculated padded input size per channel: (99 x 4). Kernel size: (129 x 1). Kernel size can‘t be gre
报错信息。
2022-06-17 23:27:16 5395
原创 RuntimeError: CUDA error: CUBLAS_STATUS_ALLOC_FAILED when calling `cublasCreate(handle)`
报错信息整改
2022-06-12 14:02:24 330
原创 《Multi-channel Speech Enhancement with 2-D Convolutional Time-frequency Domain Features and a Pre》论文
ABSTRACT我们提出了一个多通道语音增强的方法,这个方法用俩段特征融合方法和一个预训练的声学模型实现了多任务学习。在第一个融合阶段,时域和频域特征被分别提取。时域上,多通道卷积和中间通道卷积差异性特征被计算并且用第一个二维卷积层将特征整合起来;在频域上,原始通道上和 超级直接波束输出得到的对数功率谱特征被用第二个二维卷积结合在一起了。为了将多通道的信息完全的整合在一起,时频域特征和阵列的位置,我们应用了第三个二维卷积获得最终的卷积特征,这是第二个融合的阶段。进一步讲,我们提出了一个固定的纯净预训练的
2022-05-31 16:22:47 718
原创 《MULTI-FEATURE INTEGRATION FOR SPEAKER EMBEDDING EXTRACTION》论文阅读
ABSTRACT随着深度学习的发展,自动说话人识别系统变得越来越准确了。但是,目前的说话人识别系统的性能还是受限制于选了的环境,因此有可能在测试的时候性能会大幅度下降。很多的方法比如说数据增强,损失函数以及结合多种特征系统都被提出用来表明这些性能可以得到提高。本文的工作也是集中于结合多种特征来提高说话人验证的性能,说话人的信息通常是可以用不同的特征来进行表示的,相关的和不相关的信息:比如说噪声和通道信息都会影响到不同特征方式下的维度。在本文,作者打算通过重新建立提取说话人信息,将说话人信息最大化,将无关
2022-05-25 00:22:44 344 5
原创 关于matlab出现出错 gen_tr_list (line 12) fseek(fidsrc,0,1);的解决办法。
出现这个错误应该不是fseek函数使用错误,而是它的上一行fopen打开使用的路径不对,或者说系统没有找到路径。不要怀疑,再三去检查自己的代码,肯定是路径不存在,或者说存在但不是这个函数要找的路径,仔细核对路径就对了。我犯得就是这个错误。路径存在但是不是想要找的那个路径。...
2022-05-23 23:49:27 441
原创 《RaDur: A Reference-aware and Duration-robust Network for Target SoundDetection》论文阅读
ABSTRACT 目标声音检测TSD的目标是从给定的参考信号作为条件,从带噪音频里面检测到目标声音。先前的方法是用了一个条件网络从参考信号中去提取具有分辨的高维特征向量,使用这个提取出来的高维特征去检测带噪音频中的目标声音。然而,当使用不同的参考信息(噪声多的或者时间短的信号)可能降低检测的性能(对转译事件做出错误的检测)。为了解决这些问题,提出了一个基于感知的持续鲁棒性网络--RaDur。为了使得网络获取更有效的参考信息,提出了一个特征增强网络模块将带噪音频考虑进来,当产生高维特征的时候,...
2022-05-18 22:15:52 360
原创 《TEA-PSE: TENCENT-ETHEREAL-AUDIO-LAB PERSONALIZED SPEECH ENHANCEMENTSYSTEM FOR ICASSP 2022 DNS CHA》
ABSTRACT 这篇论文提出了两阶段的网络,用ECAPA-TDNN作为获取说话人向量的网络,实现了很好的性能。第一个阶段的网络只是单单的估计幅度谱,和带噪的相位结合起来得到粗糙的复数谱,第二阶段,一个附属的网络作为一个后处理模块,进一步去除掉残余的噪声和人为干扰的声音。同时,相位信息也被跟着改变了。整个大网络用了三个损失组合成最终的损失。INTRODUCTION Personalized speech enhancement (PSE),也叫做说话人提取,目标是从一个...
2022-05-11 16:11:50 1368 1
原创 linux服务器下出现permission denied [13]错误
这个错误在linux下出现就是权限的问题,如果是用服务器的,可以安装xshell,又对应的xftp文件,是一个图形化界面,在对应的文件夹下点击右键就会有一个更改权限,把权限改为777就可以了,777代表可写可读可执行。如果这样操作还不行,可以在服务器的黑框屏幕里面输入chmod 777 加上对应要修改权限的目录或者文件 , 这样就可以把对应的权限改掉了。我之前碰到的错误就是这样的,在实验室上面换了环境,需要用到另一个环境下的自己创建的文件,结果权限不够,一直没明白什么意思,后来才知道是这样子的。
2022-05-08 00:05:36 4735
原创 《EMBEDDING AND BEAMFORMING: ALL-NEURAL CAUSAL BEAMFORMER FORMULTICHANNEL SPEECH ENHANCEMENT》论文阅读
ABSTRACT 对于波束形成来说,空间协方差矩阵是很重要的。站在船头的波束形成和深度网络的角度上讲,作者提出了一个因果神经波束形成的方法,这个网络主要是由两个部分组成,一个部分是EM,BM。前者主要是将光谱信息和空间分辨信息表示出来,后者主要是直接获得波束的权重,可以实现滤波和加和的操作。为了进一步压缩噪声,又增加了一个后处理模块。实现了比较好的性能。INTRODUCTION 语音增强的目标是从带噪的语音中提取目标语音,由于哦那关键信息可以区分音频和干扰信息,所以基于...
2022-05-04 11:56:33 857
原创 《PercepNet+: A Phase and SNR Aware PercepNet for Real-Time SpeechEnhancement》论文阅读
ABSTRACT PercepNet+是PercepNet的一个扩展版本,因为PercepNet存在很多问题,所以PercepNet+在PercepNet的基础上改进了一些。首先,引入了将相位信息放到PercepNet+里面,通过加入复数特征获取一个复数子带增益;之后,一个信噪比的估计器和一个信噪比转换后处理解决在高信噪比下产生的过衰减问题;再然后,把模型里面的GRU用TFGRU替换掉了,好处是可以既整合时域特征,也可以整合频域的特征;最后,最终的损失改为了复数子带增益,信噪比,音高滤波强度和...
2022-04-28 11:26:32 852 2
原创 《FOSTER STRENGTHS AND CIRCUMVENT WEAKNESSES: A SPEECH ENHANCEMENTFRAMEWORK WITH TWO-BRANCH COLLABO》
摘要 最近单通道语音增强将时域上变换到时频域上,并且使用幅度谱和复数谱作为优化的目标。但是,基于幅度谱的方法和基于复数谱的方法有他们各自的优缺点。这篇论文中,作者提出了一个统一的双路网络来发挥它们各自的优点,来规避它们的缺点。 很多先前的研究都是用估计到的幅度谱和带噪相位结合生成增强的音频,但是,未经处理的相位其实是限制了幅度增强的性能的。所以这篇论文,作者认为相位信息是不规则的,这就表明无论外部操作的多么好,内部的相位信息都是无法实现建模的。所以用幅度谱可以利用谱的规则性,...
2022-04-19 19:17:47 130
原创 语音方面的分帧信号处理基础知识
如果代码中分完帧以后语音出现了假设,一条语音的长度是112000,窗长320,窗移160, 出现的形状是8,2,699,161,分别代表batch_size,channel,time,frequency。8代表实际的意义是8条语音,2代表每一条语音有2个通道,699代表分了699帧,161代表每一帧的特征点。这样的话,实际上理解就是161代表了一帧,所以如果代码中操作最后一个维度的话,就代表是在一帧上进行操作的。关于傅里叶变换以后为什么会是共轭对称的,数学上有严格证明,我自己的理解就是用欧拉公式..
2022-04-13 18:14:36 818
原创 《Joint Noise Reduction and Listening Enhancementfor Full-End Speech Enhancement》论文阅读
摘要 语音增强方法主要是从带噪的音频中恢复出纯净的语音。但是,在现实的世界中,噪声的来源不仅仅是说话人(去除主要说话人的其他说话人)还有周围环境的噪声。语音增强的方法虽然可以抑制说话者声音中包含的噪声,但是无法处理在听者哪里实际存在的噪声。为了解决这样复杂的但是又很常见的场景,本文提出了一个联合的深度学习架构。其中,NR模块压缩噪声,LE模块用NR模块的输出作为输入,对这个语音作修改。进一步提高语音的可理解性。最终的目的是希望增强后的语音噪声少一些,语音的可懂度好一点。实验结果表明该提出的...
2022-04-12 20:25:26 347 1
原创 《PHONEME-BASED DISTRIBUTION REGULARIZATION FOR SPEECH ENHANCEMENT》论文阅读
ABSTRACT 现存的语音增强方法有时域和频域的方法,但是这些方法啊没有关注过带噪信号里面的语义信息。这篇论文,作者希望借用语义信息能够使得增强的效果更好。因而,提出了一个音素级分布正则化模块PbDr,将帧级语义信息作为条件整合到增强网络里面。频域上不同的音素导致不同的特征分布,通过因素分类模块产生了一个参数对,尺度和偏置。这个参数对不只包括帧级,也包括频域级,能够有效的将特征映射到音素相关的分布。网络的整体结构 整个网络包含两部分,一部分是音素分类网络,一部分...
2022-04-07 10:11:59 123
原创 《Task-aware Warping Factors in Mask-based SpeechEnhancement》论文阅读
摘要 这篇论文提出了使用了两个因子,这两个因子是用于增强任务的。一个用来控制训练时候语音保持和噪声移除之间的平衡;另一个因子控制的是测试时候将增强结果应用到下游任务时候的平衡。动机就是,作者发现很多的增强任务虽然语音实现了增强,但是在应用到下游任务的时候有可能并没有提高下游任务的性能,比如说ASV,ASR等等,因为这些下游任务的目标不同,所以增强出来的语音很难对每一个下游任务都会产生好的结果,这就需要用到一个平衡因子实现各个任务的平衡。这种处理的方式是独立式的处理。实验也表明,效果有提高。...
2022-03-31 16:26:53 3536
原创 《CLOSING THE GAP BETWEEN TIME-DOMAIN MULTI-CHANNEL SPEECHENHANCEMENT ON REAL AND SIMULATION CONDIT》论
研究动机 时域上的深度学习方法,不管是多通道还是单通道的语音增强,这些方法都操作在了模拟的数据上面。这样的话,在真实的数据上泛化性能好不好就是未知的。所以这篇论文为了探究在模拟数据和真实数据上的差距而做的实验,并且尽可能去弥补这种差距。最开始的实验这种差距表现的很大,为了弥补这些差距,将多通道的Conv-TasNet整合到beamforming模型中,并且采用了联合训练方式和语音识别模型测试性能。实验数据用的是CHiME-4语料库,这是一个多通道的语料库,通过上述方法可以减小ASR的词错误率...
2022-03-25 17:02:46 2826
原创 《CASCADED TIME + TIME-FREQUENCY UNET FOR SPEECH ENHANCEMENT:JOINTLY ADDRESSING CLIPPING》论文阅读
论文的全称是《CASCADED TIME + TIME-FREQUENCY UNET FOR SPEECH ENHANCEMENT: JOINTLY ADDRESSING CLIPPING, CODEC DISTORTIONS, AND GAPS》研究动机 语音增强是用于处理噪声的,这篇文章是为了处理三种不常见的噪声而提出的。INTRODUCTION 本文处理的三种噪声分别是speech clipping, codec distortions, gaps。首先,第一种噪...
2022-03-25 16:03:13 2540
原创 《NEURAL NOISE EMBEDDING FOR END-TO-END SPEECHENHANCEMENT WITH CONDITIONAL LAYER NORMALIZATION》论文阅读
研究动机 大多数的语音增强方法都是考虑了带噪语音和纯净语音之间的关系,但是没有考虑到噪声。为了处理很多种噪声场景,本文引入了一种·新的噪声结构,将噪声的高维特征用于到自动微分编码器。在这篇文章中,加入了一个CLN的归一化层来处理噪声,提高模型的泛化性能。INTRODUCTION 因为很多增强方法只考虑从带噪语音中评估纯净语音。但是,很多的噪声类型不匹配问题会出现,为了解决这个问题,就把噪声的高维特征当作一个额外的条件送入到网络里面。 这篇论文中,作者们提出了...
2022-03-25 15:38:36 2473 2
原创 pycharm引入自己的包出现没有模块的情况
x(67条消息) pycharm下 文件里的模块不能调用 解决 from xxx import xxx no model name xxx_kaxiaokui的博客-CSDN博客_pycharm模块对象不可调用https://blog.csdn.net/kaxiaokui/article/details/105494226?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Ede.
2022-03-10 17:30:46 623
原创 使用soundfile.write()出现错误
File "/home/hwja/anaconda3/envs/py2/lib/python2.7/site-packages/soundfile.py", line 373, in readsubtype, endian, format, closefd) as f:File "/home/hwja/anaconda3/envs/py2/lib/python2.7/site-packages/soundfile.py", line 740, ininitself._file = self._ope.
2022-03-08 13:19:59 7694 4
原创 《STREAMING MULTI-SPEAKER ASR WITH RNN-T》论文阅读
本文的作者是 Ilya Sklyar, Anna Piunova, Yulan Liu。Amazon Alexa。动机: 端到端的语音识别系统开始研究有重叠片段的多个说话人的语音了,但是,因为有低延迟的限制,所以不太适合语音助手之类的交互。本论文主要是集中于多个说话人识别上,在低延迟的可能下提高识别精度,而且是在线识别。采用了一种流式的RNN-T的两种方法:确定性输出目标分配(DAT)和PIT,研究的结果表明模型实现了很好的性能。 单通道的语音上多个说话人部分或者全部重叠...
2022-02-24 12:51:29 2044
原创 《DETECT WHAT YOU WANT: TARGET SOUND DETECTION》论文阅读
本文的作者是Dongchao Yang , Helin Wang, Yuexian Zou , Chao Weng,ADSPLAB, School of ECE, Peking University, Shenzhen, China Tencent AI Lab, Shenzhen, China.研究动机 人类可以在有多个声源的环境下定位到自己感兴趣的声源。然而机器设备却很难做到这样。这篇论文要解决的问题就是目标声音检测(TSD):在混合音频的条件下,怎么样检测到目标...
2022-02-18 16:46:30 1555
原创 《TIME-FREQUENCY ATTENTION FOR MONAURAL SPEECH ENHANCEMENT》论文阅读
本文的作者是Qiquan Zhang, Qi Song, Zhaoheng Ni, Aaron Nicolson, Haizhou Li。研究动机文中表明很多的增强研究没有考虑到时频域上语音的表示的能量分布,而能量分布对于mask或者频谱的预测都是很重要的。所以本论文中,提出了一个T-F attention模块,时频域上自注意力机制的模块,用一个基本的网络架构叫做ResTCN,...
2022-02-17 12:45:27 975
原创 《SEGAN: Speech Enhancement Generative Adversarial Network》论文阅读
本文的作者是Santiago Pascual,Antonio Bonafonte,Joan Serra。研究动机 目前语音增强的技术都是用在频谱域上或者高维特征上,这样的话,大多数的音频处理会受到噪声环境数量的限制并且依赖一阶统计特征。为了解决这些问题,深度网络是可以从大型的数据集上学习到复杂的映射。本论文中,提出了增强GAN网络,名叫SEGAN,它是直接用时域的波形当作输入送入到网络当中去的,在看不见的测试集下进行测试的。SEGAN有几个特点:第一,它的处理是很快的,非因果被用到,但是...
2022-02-17 12:08:09 2173
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人