语音预处理
文章平均质量分 72
林林宋
不要急,不要慌,知识总是一点点积累起来的
展开
-
kaldi基本使用 & debug
提特征wav.scp/utt2spk/spk2utt对于xx.wav格式的语音,wav_id指的是xx,wav_dir指的是abs_dir/xx.wavwav.scp "wav_id wav_dir"word_txt "wav_id content"spk2utt spk wav_name(对应所有的),一般spk是wav_name的下划线之前部分 spk_wavid=wav_nameutt2spk 每行的格式:wav_name spk...原创 2020-11-25 10:22:49 · 626 阅读 · 0 评论 -
onehot encoder
目录sklearnsklearnfrom sklearn.preprocessing import OneHotEncoderlabels = [[0,1,2,5]]enc.fit(labels)enc.transform(labels).toarray()enc = OneHotEncoder()>>> enc.transform(labels).toarray()array([[1., 0., 0., 0.], [0., 1., 0., 0.],原创 2020-08-20 14:20:07 · 113 阅读 · 0 评论 -
语音合成基础知识---发音问题
1. 清浊音判断发音时声带振动的音称为浊音(voice),声带不振动的音称为清音(unvoice)。在时域内,语音信号具有“短时性”的特点,在浊音段表现出周期信号的特征,在清音段表现出随机噪声的特征。短时能量:浊音时能量值比清音时大得多。参考:清浊音区分...原创 2020-06-05 08:33:47 · 487 阅读 · 0 评论 -
语音处理工具 sox & librosa
参考:https://blog.csdn.net/qq_39516859/article/details/87980189能量增强or衰减sox命令的-v选项可以用来(成倍地)改变音量的大小:sox -v 0.5 foo.wav bar.wav能量增强 or衰减,但不削波sox foo.wav -n stat -v 2> vcsox -v `cat vc` foo.wav foo-maxed.wav...原创 2020-05-29 16:01:56 · 4115 阅读 · 1 评论 -
语音识别基础1:建模单元 phone
声学模型描述一种语言的基本单位被称为音素Phoneme,例如BRYAN这个词就可以看做是由B, R, AY, AX, N五个音素构成的。英语中貌似有50多个音素,可以用50几个HMM state来表示这些音素,这种表示方法就是context independent模型中的单音素monophone模式。然而语音没有图像识别那么简单,因为我们再说话的时候很多发音都是连在一起的,很难区分,所以一般用左...原创 2019-11-11 19:42:43 · 2041 阅读 · 0 评论 -
PLDA
PLDA(Probabilistic Linear Discriminant Analysis)是一种信道补偿算法,认为ivector中既有说话人信息,又有channel信息,想要滤去channel信息(信道),需要对信道进行补偿。ref:《Probabilistic Linear Discriminant Analysis for Inferences About Identity》其中提...原创 2019-06-04 21:08:45 · 1243 阅读 · 0 评论 -
speaker vector
ivectorxvector参考:https://zhuanlan.zhihu.com/p/34440000声纹识别的一个专业人士写的帖子原创 2019-05-09 14:40:09 · 348 阅读 · 0 评论 -
kaldi加噪声or混响or能量衰减
加混响----不区分信噪比,只分混响的类型,分成largeroom/medium room/small room,每个房间类型下有多个噪声源kaldi/src/featbin/wav-reverberate --shift-output=true --impulse-response='soxnoise.wav -r 16000 -t wav - |' --start-times='0' ...原创 2019-05-05 10:13:26 · 3498 阅读 · 2 评论 -
kaldi安装过程
1.下载kaldi的文件git clone https://github.com/kaldi-asr/kaldi.git2.进入toolscd toolscat INSTALL按照指令一步步进行extras/check_dependencies.sh#检查依赖性,没有的包按照指令安装make or make -j 4(多线程加快进度)3.进入srccd srcc...原创 2019-04-18 10:10:45 · 16005 阅读 · 4 评论 -
数据集说明文档
http://www.openslr.org/18/30个中文说话者,识别数据集maleA5、A8、A9、A33、 A35、B8、B21、D8原创 2019-04-17 14:28:45 · 2580 阅读 · 1 评论 -
谱图的时域、频域以及相位关系
参考:https://blog.csdn.net/wangchao712217/article/details/78731494图1——1d时间轴(0、2、4、6....) 2d频率轴(0、1、2、3.....) 3d幅度轴(纵向)正弦波就是一个圆周运动在一条直线上的投影。所以频域的基本单元也可以理解为一个始终在旋转的圆可以发现,在频谱中,偶数项的振幅...原创 2019-03-12 17:48:00 · 9459 阅读 · 0 评论 -
信号的傅立叶变换
kaldi上有很多语音处理的代码知识http://kaldi-asr.org/doc/feature-fbank-test_8cc.html数字信号在时间和幅度上都是离散的信号。离散信号可以通过采样一个连续的时间信号得到,也可以直接由一个离散的时间过程产生。傅里叶变换——对时间缺陷做改进,有短时傅里叶变换和小波变换**傅里叶变换:**就是把信号从时域变换到频域,但是会丢失时间信号,不知道哪...原创 2019-03-12 17:33:47 · 2783 阅读 · 0 评论 -
信号预处理:MFCC处理流程
补充另外2个还不错的链接https://blog.csdn.net/Bonner1/article/details/86488046https://blog.csdn.net/xmdxcsj/article/details/51228791处理的流程(1)预加重(Pre-emphasizing):在语音信号中,由于声门气流波的影响,每倍频衰减是12dB, 而唇腔辐射是每倍...原创 2018-12-17 22:57:19 · 2268 阅读 · 0 评论