![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
kaldi
林深迷了鹿
这个作者很懒,什么都没留下…
展开
-
awk grep sed 语音识别 应用 ----aishell 处理transcipt为合适的格式 和 利用DaCiDian来分词
对aishell_transcript_v0.8.txt进行处理(去掉文本之间的空格,并且修改wav名称和文本之间的隔断为tap)awk '{for(i=2;i<=NF;++i) printf $i; print "\n"}' aishell_transcript_v0.8.txt > ~/home/aishell/data/text取wav编号,为合成text分词做准备awk '{print $1}' aishell_transcript_v0.8.txt > ~/home/原创 2021-03-22 21:43:50 · 280 阅读 · 0 评论 -
aishell3数据处理&训练(用于ASR)- 基于content.txt的text的准备
处理之前的文本如下图:1、去除content.txt前面的 wav 名字awk '{for(i=2;i<=NF;++i) printf $i " ";printf "\n"}' content.txt > trans.txt2、去除trans.txt中的拼音和声调去除声调数字sed 's/[0-9]//g' trans.txt > no-num.txt去除字母sed 's/[A-Za-z]//g' no-num.txt > no-letter.txt去除多余的原创 2021-03-20 15:10:37 · 858 阅读 · 0 评论