Tone Classification in Mandarin Chinese using Convolutional Neural Networks翻译

1. Introduction

  用CNN网络实现了中文发音的四种声调检测,比简单基于基频(F0)判断效果更好。中文里面有四声,各有特点。一声高且平,二声上升,三声先降后升,四声一直降。
fig1
  图一测试的是/yi/。第一行就是四种声调的波形图。中间是语谱图(spectrograms),以及下面的梅尔倒频谱参数(MFCCs)。/yi/这个声调在“一”“姨”“椅”“艺”中分别是一二三四四种声调。
  (论文此处说了一堆别人方法的不足),总的来说,噪声对基于基频的方法的影响大,而且该方法在单音节的词上面效果不好。作者用了无监督的特征学习方法,分别使用了去噪自动编码器和稀疏自动编码器(denoising and sparse autoencoders)作为卷积层的kernel,通过max-pooling降采样,之后通过一个softmax分类器。准确度最高为95.5%,比使用基频的方法改进了很多。

2. The Tone Classification Model

  预处理过程中获得MFCC向量。然后用去噪自编码器作为核心来卷积,max-polling之后作为分类器的输入。为了对比,也设计了直接使用pooling后的MFCC向量作为分类器输入网络,结构如下。
fig2
CNN的结构

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值