aishell3数据处理&训练(用于ASR)- 基于content.txt的text的准备

处理之前的文本如下图:
在这里插入图片描述

1、去除content.txt前面的 wav 名字

awk '{for(i=2;i<=NF;++i) printf $i " ";printf "\n"}' content.txt > trans.txt

2、去除trans.txt中的拼音和声调

去除声调数字

sed 's/[0-9]//g' trans.txt > no-num.txt

去除字母

sed 's/[A-Za-z]//g' no-num.txt > no-letter.txt

去除多余的空格

sed -e 's/[[:space:]][[:space:]]*/ /g' no-letter.txt > low-space.txt
//low-space.txt就是最终的text中的文本(未分词)--如下图

在这里插入图片描述

3、准备text中的wav 编号

取content.txt中的第一列

awk '{print $1}' cp-content.txt > out.txt

将 ‘.wav’ 后缀去掉

sed 's/\.wav//g' out.txt > nowav.txt

4、合并 nowav.txt 和 no-space.txt

paste -d "\t" nowav.txt low-space.txt > transcipt.txt

## bash文件总结


#!/usr/bin/env bash
cp content.txt cp-content.txt
awk '{for(i=2;i<=NF;++i) printf $i " ";printf "\n"}' content.txt > trans.txt
sed 's/[0-9]//g' trans.txt > no-num.txt
sed 's/[A-Za-z]//g' no-num.txt > no-letter.txt
sed -e 's/[[:space:]][[:space:]]*/ /g' no-letter.txt > low-space.txt
//low-space.txt就是最终的text中的文本(未分词)
awk '{print $1}' cp-content.txt > out.txt
sed 's/\.wav//g' out.txt > nowav.txt
paste -d "\t" nowav.txt low-space.txt > transcipt.txt
rm -rf trans.txt no-num.txt no-letter.txt low-space.txt out.txt nowav.txt //删除过程文件

处理后text如下图所示,可根据自己的需求再进行下一步处理

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值