AR-Net: 一种口音识别(分类)网络(keras版本)

一、简介

本文记录interspeech2020和数据堂举办的AESRC2020口音英语识别的参赛方案,实验代码可参考:
github:https://github.com/coolEphemeroptera/ARNet.git

口音识别与语音识别密切相关,如果只做简单的口音分类,很容易陷入过拟合的情况,因此,我们引入语音识别任务来建立多任务模型。

二、模型架构

我们采用 CNN+RNN 的特征编码结构和 语音识别/口音分类 多任务输出
arnet

ARNet模型组成如下:

<输入>:[N, MAX_TIME, FEATS, 1], 输入特征由kaldi提取80维的fbank特征,再做全局CMN归一化得到输入时频图
<编码器>:前端CNN使用resnet经行特征抽取和池化,再通过RNN 提取序列特征
<输出1:CTC>: ctc损失函数作为ocr或者e2e-asr的常用loss,作为口音识别的辅助任务
<输出2:Accent>: 口音分类任务(softmax+CE)

三、训练数据

3.1 aesrc口音数据:160小时的口音英语数据集

数据堂 为参赛者提供总共160小时的来自8个国家的英语数据,每一种口音大约有20小时的数据,八个国家分别来自:
1.中国
2.印度
3.日本
4.韩国
5.英国
6.俄罗斯
7.葡萄牙
8.美国

3.2 辅助数据:1000小时librispeech语音数据集

Librispeech数据由960小时的训练数据和40小时的测试数据组成,开源地址:http://www.openslr.org/12/

四、训练方法

4.1 训练/网络配置
EPOCHSINIT_LRBPE_SIZE
200.0011000
MAX_SEQ_LEN (libri)MAX_LABEL_LEN (libri)ENCODER_LEN (libri)
1600100150
MAX_SEQ_LEN (aesrc)MAX_LABEL_LEN (aesrc)ENCODER_LEN (aesrc)
120072114

其他tricks: ReduceLROnPlateau , EarlyStopping, 其中:
libri检测指标:dev_loss, aesrc检测指标:dev_acc
在训练ARNet中,后期在开发集混存在loss和acc同时上升,这是因为网络此时正在进行高相似度口音辨别学习,导致softmax对不确定口音的最大预测概率下降。

4.2 预训练:隐层初始化(librispecch)

通过librispeech 的ctc训练任务来初始化隐层(红色线条)
init

4.3 训练 CTC和口音分类 的多任务模型

5 实验结果

5.1 librispeech

语音识别任务 CTC-WER:

dev_cleandev_othertest_cleantest_other
resnet18 + bi-gru20.7%37.5%20.9%38.6%

值得注意的是,加深CNN会改善ASR识别率,我们使用resnet34网络在dev_clean 测试集上获得16.7% 的词错率。

5.2 aesrc

语音识别任务 CTC-WER:

devtest
resnet18 + bi-gru24%-

口音分类任务 Accent-ACC:

dev 结果:

ChineseJapaneseIndiaKoreaAmericanBritainPortugueseRussiaOverall
resnet18 + bi-gru0.640.690.970.660.580.920.820.700.75
5.3 官方baseline

官方也给出了一个baseline结果,其实验框架基于espnet, 模型采用 transformer + asr-init,分类准确度为76%。
官方仓库:https://github.com/R1ckShi/AESRC2020

dev 结果:

ChineseJapaneseIndiaKoreaAmericanBritainPortugueseRussiaOverall
0.670.730.970.560.600.940.860.760.76

6 结论

哈哈,印度人口音最好识别,转载请注明出处~

99元秒杀!每天前100人再送5门编程课! AI+5门300元课程+讲师社群答疑+社群闭门分享会=99元 源码开源下载:https://github.com/DjangoPeng/keras-101/tree/master/code_samples 【为什么学AI】 归功于近年来大规模数据和硬件计算能力的大幅度提升,人工智能的概念近两年一直是市场追捧的对象。目前各大厂都争先恐后地布局AI,落地各类AI的的商业应用,也随之打响了一场激烈的人才争夺战。长远来看,越快将 AI 用于自己的工作中就能越早体会到AI带来的收益。 【讲师介绍】 彭靖田 Google Developer Experts。 曾为 TensorFlow Top级 的贡献者,著书《深入理解TensorFlow》,是国内第一本深度剖析 Google AI 框架的畅销书。 曾从0到1深入参与了华为 2012 实验室深度学习平台和华为深度学习云服务的设计与研发工作。 【课程设计】 课程内容基于最新的Keras版本(你也可以使用 TensorFlow 2 的 tf.keras 模块),其中有大量独家解读、案例,以及不少讲师一线实战多年的方法论和深度思考。同时,在层次划分上,难易兼顾,循序渐进。既有核心的基础知识,也有高级的进阶操作,尽量做到“老少皆宜”。 课程分为基础篇、入门篇和实战篇: 一、基础篇: 主要讲解人工智能发展史和深度学习脱颖而出的原由,以及神经网络的基础概念、理论实现、优化原理和计算方法。 二、入门篇: 主攻快速上手,通过7个小节让你从0到1实现环境搭建、模型优化,直接试水2个实战项目。同时,增强AI的理论学习,系统掌握机器学习3大分支、模型评估方法、数据预处理常用手段与过拟合问题的解决方案。 三、实战篇: 通过4个实战全面掌握深度学习理论与实现,涵盖目标检测、图像分类、可视化和可解释性学习、迁移学习、特征提取、数据增强等。带你综合运用前面所学的所有知识,逐渐熟练AI开发流程与技能。 课程包含思维导图上的所有内容(价值199元)前500名立减100元,仅99元买完就能学!
©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页