自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 语音中常用输入特征的提取过程:MFCC、FBank

声纹识别中常用输入特征的提取过程:MFCC、FBank介绍梅尔(Mel)频率掩蔽效应和临界带宽Mel滤波器MFCC提取流程1.预加重2.加窗3.DFT4.Mel滤波5.DCT变换Fbank提取流程总结介绍要了解 MFCC 的提取流程,我们先复习一下一些相关知识。梅尔(Mel)频率梅尔频率为人耳所感知到的声音频率。当音频的物理频率 fff 在1kHz 以下,其梅尔频率 Mel(f)Mel(f)Mel(f) 与 fff 近似为线性关系,而在1kHz 以上则近似为对数关系。两者的对应关系可用下式来近似:

2021-05-19 15:20:05 2332 1

原创 论文阅读 ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks

论文阅读 ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks前言Asymmetric Convolution Block (ACB)卷积分支的融合每个分支融合conv和BN并行分支融合实验前言对CNN结构的设计,之前的工作主要关注层间的连接方式,如 VGG 简单地把层堆叠在一起,ResNet 通过 identity mapping 把 block 的输入和输出加在一起,

2021-05-18 10:41:10 291

原创 说话人确认Speaker Verification中的评估指标:EER、minDCF、DET曲线、ROC曲线

说话人确认Speaker Verification中的评估指标:EER、minDCF、DET曲线、ROC曲线前言等错误概率EER(Equal Error Rate)最小检测代价函数minDCF(Minimum Detection Cost Function)DET曲线(Detection Error Trade-off)ROC曲线(Receiver Operating Characteristic)前言说话人确认(Speaker Verification)的测试阶段需要判断两句话是否来自同一个说话人,

2021-05-12 15:24:42 4865 1

原创 论文阅读:Regularizing Deep Networks with Semantic Data Augmentation

论文阅读:Regularizing Deep Networks with Semantic Data Augmentation动机特征空间的语义变换Implicit semantic data augmentation (ISDA)1. 选择合适的语义方向2.优化一个loss的上界算法ISDA用于半监督学习实验papercode动机图像的语义信息 (semantic information) 是指与图像内容有关的信息,如图片的背景、图片中物体的颜色、视角等。图像中常用的数据增广 (Data Au

2021-05-12 12:24:43 993

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除