语音识别概论

本文探讨了语音识别的优化过程,包括调整标签计数、数据清洗、匹配策略和训练策略。实验结果显示,在不同数据集上进行了多次迭代,如ailab-test、command等,得到了逐步改善的识别错误率(WER)。最佳结果为5.21% WER,展示了优化的有效性。
摘要由CSDN通过智能技术生成

server最佳
ailab-test-20170421 
ailab-test-20170615 
ailab-test-600
 command-20170607 
huiting-test-1000
 qqmusic-test-1142
6.10    4.95    6.39    4.78    4.65    22.26    5.37    8.19


1 调整labels.counts
5752891
ailab-test-20170421 
ailab-test-20170615 
ailab-test-600
 command-20170607 
huiting-test-1000
 qqmusic-test-1142
ACWT 5 | 8.50 | 7.22 | 8.39 | 6.95 | 6.92 | 24.54 || 10.42 | 7.60 ||
ACWT 6 | 7.64 | 6.36 | 7.38 | 5.90 | 6.09 | 22.94 || 9.38 | 6.67 ||
ACWT 7 | 6.97 | 5.62 | 6.62 | 5.67 | 5.50 | 22.69 || 8.85 | 6.08 ||
ACWT 8 | 6.44 | 5.27 | 6.39 | 4.84 | 4.94 | 22.40 || 8.38 | 5.58 ||
ACWT 9 | 6.13 | 4.96 | 6.33 | 4.78 | 4.65 | 22.01 || 8.14 | 5.37 ||
ACWT 10 | 5.94 | 4.93 | 6.35 | 4.84 | 4.56 | 22.19 || 8.13 | 5.32 ||
Best:5.32

6752891
ailab-test-20170421 
ailab-test-20170615 
ailab-test-600
 command-20170607 
huiting-test-1000
 qqmusic-test-1142
ACWT 5 | 8.17 | 6.98 | 8.13 | 6.95 | 6.76 | 24.07 || 10.18 | 7.40 ||
ACWT 6 | 7.48 | 6.13 | 7.24 | 5.95 | 5.90 | 22.80 || 9.25 | 6.54 ||
ACWT 7 | 6.79 | 5.54 | 6.49 | 5.56 | 5.24 | 22.31 || 8.65 | 5.92 ||
ACWT 8 | 6.23 | 5.15 | 6.35 | 4.89 | 4.81 | 22.26 || 8.28 | 5.49 ||
ACWT 9 | 5.94 | 4.90 | 6.13 | 4.78 | 4.70 | 21.63 || 8.01 | 5.29 ||
ACWT 10 | 5.83 | 4.91 | 6.22 | 4.84 | 4.67 | 22.59 || 8.18 | 5.29 ||
Best:5.29

7752891
ailab-test-20170421 
ailab-test-20170615 
ailab-test-600
 command-20170607 
huiting-test-1000
 qqmusic-test-1142
ACWT 5 | 8.04 | 6.92 | 8.00 | 6.95 | 6.47 | 23.90 || 10.05 | 7.28 ||
ACWT 6 | 7.31 | 6.07 | 7.05 | 5.95 | 5.66 | 22.76 || 9.13 | 6.41 ||
ACWT 7 | 6.52 | 5.44 | 6.47 | 5.62 | 4.91 | 22.12 || 8.51 | 5.79 ||
ACWT 8 | 6.10 | 5.15 | 6.33 | 4.89 | 4.80 | 22.08 || 8.22 | 5.45 ||
ACWT 9 | 5.79 | 4.95 | 6.15 | 4.78 | 4.70 | 22.08 || 8.08 | 5.27 ||
ACWT 10 | 5.74 | 4.94 | 6.23 | 4.84 | 4.73 | 22.83 || 8.22 | 5.30 ||
Best:5.27

9752891
ailab-test-20170421 
ailab-test-20170615 
ailab-test-600
 command-20170607 
huiting-test-1000
 qqmusic-test-1142
ACWT 5 | 7.73 | 6.78 | 7.71 | 6.73 | 5.95 | 23.65 || 9.76 | 6.98 ||
ACWT 6 | 7.02 | 5.97 | 6.86 | 6.01 | 5.26 | 22.97 || 9.02 | 6.22 ||
ACWT 7 | 6.25 | 5.37 | 6.50 | 5.45 | 4.70 | 22.12 || 8.40 | 5.65 ||
ACWT 8 | 5.81 | 5.06 | 6.20 | 4.89 | 4.72 | 22.03 || 8.12 | 5.34 ||
ACWT 9 | 5.63 | 4.95 | 6.17 | 4.78 | 4.81 | 22.15 || 8.08 | 5.27 ||
ACWT 10 | 5.59 | 4.91 | 6.20 | 4.78 | 4.80 | 22.76 || 8.17 | 5.26 ||
Best:5.26


10252891
CWT 5 | 7.62 | 6.78 | 7.57 | 6.73 | 5.90 | 23.58 || 9.70 | 6.92 ||
ACWT 6 | 6.91 | 5.91 | 6.84 | 6.01 | 5.23 | 22.90 || 8.97 | 6.18 ||
ACWT 7 | 6.23 | 5.32 | 6.46 | 5.45 | 4.68 | 22.15 || 8.38 | 5.63 ||
ACWT 8 | 5.76 | 5.10 | 6.26 | 4.95 | 4.70 | 22.15 || 8.15 | 5.35 ||
ACWT 9 | 5.62 | 4.92 | 6.20 | 4.78 | 9:36 2018/10/174.80 | 22.22 || 8.09 | 5.26 ||
ACWT 10 | 5.52 | 4.91 | 6.22 | 4.84 | 4.86 | 22.76 || 8.19 | 5.27 ||
Best:5.26
2 label 清洗
2.1  繁体转简体

ACWT 10 | 5.45 | 5.62 | 6.66 | 6.12 | 5.34 | 24.21 || 8.90 | 5.84 ||
ACWT 10 | 5.18 | 5.23 | 6.77 | 5.62 | 5.42 | 23.60 || 8.64 | 5.64 ||


霉 酶 删除
栗 傈 删除
杬 叁 删除
濕 墒 修改 湿
堆 栈 删除 1494字
矽 硅 删除
2.2 匹配策略
inv:优先从Dacidian匹配 ->cmu词典
oov:拆分  sub words
3 大数据
filter restart 
* Finished epoch # 1     tokenAcc:  87.868  editDist:   3.50
第2epoch修改labels
filter retrain
* Finished epoch # 1     tokenAcc:  89.723  editDist:   2.971
第2epoch修改labels


1.8w restart
 * Finished epoch # 1     tokenAcc:  89.156  editDist:   3.065(停掉)
1.8w restrain
 * Finished epoch # 1     tokenAcc:  89.753  editDist:   2.880
 * Finished epoch # 2     tokenAcc:  90.269  editDist:   2.726
 * Finished epoch # 3     tokenAcc:  90.808  editDist:   2.582
 * Finished epoch # 4     tokenAcc:  90.626  editDist:   2.630
第5epoch修改labels

4 小数据集

1k_32_ref
 * Finished epoch # 1     tokenAcc:  74.780  editDist:   7.292
1k_32_ker7
 * Finished epoch # 1     tokenAcc:  74.525  editDist:   7.365


5 集解码 filter retrain
ailab-test-20170421:
cer_10:%WER 5.21 [ 1175 / 22557, 69 ins, 127 del, 979 sub ]
cer_5:%WER 7.16 [ 1615 / 22557, 57 ins, 583 del, 975 sub ]
cer_6:%WER 6.19 [ 1397 / 22557, 57 ins, 397 del, 943 sub ]
cer_7:%WER 5.69 [ 1284 / 22557, 61 ins, 274 del, 949 sub ]
cer_8:%WER 5.33 [ 1203 / 22557, 62 ins, 194 del, 947 sub ]
cer_9:%WER 5.26 [ 1187 / 22557, 64 ins, 162 del, 961 sub ]

ailab-test-20170615:
cer_10:%WER 5.41 [ 791 / 14634, 16 ins, 63 del, 712 sub ]
cer_5:%WER 7.46 [ 1091 / 14634, 13 ins, 281 del, 797 sub ]
cer_6:%WER 6.53 [ 956 / 14634, 13 ins, 194 del, 749 sub ]
cer_7:%WER 6.04 [ 884 / 14634, 13 ins, 139 del, 732 sub ]
cer_8:%WER 5.58 [ 817 / 14634, 16 ins, 96 del, 705 sub ]
cer_9:%WER 5.38 [ 788 / 14634, 16 ins, 75 del, 697 sub ]

test600
cer_10:%WER 6.39 [ 544 / 8510, 59 ins, 39 del, 446 sub ]
cer_5:%WER 8.37 [ 712 / 8510, 54 ins, 192 del, 466 sub ]
cer_6:%WER 7.59 [ 646 / 8510, 58 ins, 129 del, 459 sub ]
cer_7:%WER 7.22 [ 614 / 8510, 58 ins, 87 del, 469 sub ]
cer_8:%WER 6.76 [ 575 / 8510, 58 ins, 64 del, 453 sub ]
cer_9:%WER 6.55 [ 557 / 8510, 58 ins, 54 del, 445 sub ]

过滤之后的结论

1
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Transformer语音识别是一种基于Transformer模型语音识别方法。在这种方法,首先通过声学特征提取将语音信号转换为特征表示。然后,使用解码器将特征表示转换为状态序列,并将其映射到对应的识别单元,如音素序列。接下来,通过语言模型对音素序列进行约束,以得到最终的句子识别结果。 Transformer模型是一种无循环的序列到序列模型,它使用自注意力机制来捕捉输入序列的长距离依赖关系。这种模型语音识别的应用可以减少对上下文的依赖,提高识别性能。通过使用Transformer模型,可以更好地处理长句子和复杂的语音输入。 参考文献\[2\]提到了Speech-transformer,它是一种基于Transformer的语音识别模型。该模型使用了无循环的序列到序列架构,并取得了较好的识别性能。 总之,Transformer语音识别是一种利用Transformer模型进行声学特征提取、状态序列转换和识别单元映射的语音识别方法,它能够有效处理长句子和复杂的语音输入。\[1\]\[2\] #### 引用[.reference_title] - *1* *3* [语音识别原理与应用 洪青阳 第一章 概论](https://blog.csdn.net/hnlg311709000526/article/details/120912777)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [基于SA-Conv-CTC/Attention端到端语音识别模型的基本原理、实现方法和主要流程](https://blog.csdn.net/qq_37555071/article/details/118936710)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值