Audio
文章平均质量分 72
mingo_敏
这个作者很懒,什么都没留下…
展开
-
声谱图(spectrogram)、FBank(Mel_spectrogram)和 MFCC(Mel倒谱)到底用哪个作为NN输入?
一般来说一段音频先是经过傅里叶变换得到spec,然后经过三角滤波得到mel_spec,最后通过倒谱得到mfcc,这个过程中feature的维度在不断降低,这就意味着可能会存在信息上的损失。那么在nn中到底该选哪个作为输入呢?DNN做声学模型时,一般用fbank,不用mfcc,因为fbank信息更多 (mfcc是由mel fbank有损变换得到的)。mfcc一般是GMM做声学模型时用的,因为通常GMM假设是diagonal协方差矩阵,而cepstral coefficient更符合这种假设。line原创 2021-12-18 15:39:39 · 2175 阅读 · 0 评论 -
深度学习论文: Evaluating You Only Hear Once on noisy audios in the VOICe Dataset及其PyTorch实现
深度学习论文: Evaluating You Only Hear Once on noisy audios in the VOICe Dataset及其PyTorch实现Evaluating robustness of You Only Hear Once (YOHO) Algorithm on noisy audios in the VOICe DatasetPDF: https://arxiv.org/pdf/2111.01205.pdfPyTorch代码: https://github.com/原创 2021-12-18 14:15:38 · 664 阅读 · 0 评论 -
深度学习论文: A YOLO-like Algorithm for Audio Segmentation and Sound Event Detection及其PyTorch实现
深度学习论文: A YOLO-like Algorithm for Audio Segmentation and Sound Event Detection及其PyTorch实现You Only Hear Once: A YOLO-like Algorithm for Audio Segmentation and Sound Event DetectionPDF: https://arxiv.org/pdf/2109.00962.pdfPyTorch代码: https://github.com/sha原创 2021-12-18 14:03:52 · 2743 阅读 · 1 评论 -
The PyTorch-Kaldi Speech Recognition Toolkit
The PyTorch-Kaldi Speech Recognition ToolkitPDF: https://arxiv.org/pdf/1811.07453.pdf代码: https://github.com/mravanelli/pytorch-kaldi文档: http://fancyerii.github.io/books/pytorch-kaldi/1 概述Kaldi目前是最受欢迎的ASR工具包。使用C++和各种脚本来实现最先进的语音识别系统, Kaldi包括一全套使用方法,涵盖了所原创 2021-12-15 09:24:37 · 4399 阅读 · 0 评论