![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
语音相关
weixin_39087379
这个作者很懒,什么都没留下…
展开
-
wav文件头
// 这里得到可播放的音频文件 private void copyWaveFile(String inFilename, String outFilename) { FileInputStream in = null; FileOutputStream out = null; long totalAudioLen = 0; long totalDataLen = totalAudioLen + 36; long lo原创 2022-04-19 09:37:40 · 431 阅读 · 0 评论 -
汉字转拼音的方法
待续原创 2021-08-02 22:42:23 · 76 阅读 · 0 评论 -
ctc_loss 和 beam_search
ctc_lossbeam_search原创 2021-08-02 22:41:51 · 204 阅读 · 0 评论 -
房间冲击响应
房间冲击响应的求法1、房间传函(卷积和频域相乘的关系)2、白噪声,chirp信号测试传函的方法原创 2021-05-20 23:45:59 · 700 阅读 · 0 评论 -
wav_norm
find peak of wav (abs peak)tmp= pow(10, -3.0 / 20) * (pow(2.0, 15) - 1); // //pow(10, -3.0 / 20) = 0.70794: scale 0.5 (-3db), 15 bits quantization, max value is (pow(2,15)-1)或者使用sart(2)/2* (pow(2.0, 15) - 1);scale * (wav[i] / max(abs_peak)) //norm pea.原创 2021-03-27 17:37:41 · 48 阅读 · 0 评论 -
fftconvlove 与 convlove 的区别; 参数{‘full’, ‘valid’, ‘same’}的设置
一、fftconvlove 与 convlove 的区别:fftconvolve 先做FFT,然后在频域相乘再转换为时域。 当序列较长时,可以利用FFT减少计算量加快运算速度。convolve 直接在时域进行卷积fftconvolve using the fast Fourier transform method. fftconvolve is generally much faster than convolve for large arrays (n > ~500), but can be原创 2021-03-12 10:41:56 · 1159 阅读 · 0 评论 -
Speaker recognition/identification、speaker verification
Speaker recognition/identification语者识别可以看成是一个多分类任务。我们需要从输出取概率最大那个索引对应的类别。**speaker verification**给定之前一段记录好的声音(注册语音)和一段新输入的声音,模型会判断二者的相似度,并输出一个表示相似度的概率,通过阈值来判断二者是否是同一个人说的。...原创 2021-01-18 21:54:17 · 718 阅读 · 0 评论 -
i-vector d-vector x-vector
一、i-vectori-vector 模型是输出一个400维的向量二、d-vectoDNN 会输入一个固定长度的语音,对它做 Speaker Recognition。然后我们把这个模型的最后一层隐层抽取出来,它就是这段语音的 d-vector。不用 output layer 中的最后一层输出,因为它的维度是和训练时语者数目有关的。而是它前面的那一层隐层输出。在实际预测的时候,输入语音是不等长的,会把语音截成多段,然后取这几段特征的d-vector的平均值作为最后的speaker embedding原创 2021-01-18 21:50:18 · 4057 阅读 · 0 评论