语音识别
语音识别,文本加标点。
优惠券已抵扣
余额抵扣
还需支付
¥79.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
MachineLP
成功收获成果,失败收获智慧,投入收获快乐!
展开
-
[语音识别] 文本加标点--BERT预测
文本加标点--训练BLSTMbert4keras==0.5.9# -*- coding:utf-8 -*-import os import reimport sysimport timeimport jiebaimport gensim import loggingimport numpy as npimport pandas as pdfrom tqdm import tqdmimport multiprocessingfrom bert4keras.snippets原创 2021-07-19 20:07:29 · 1021 阅读 · 2 评论 -
[语音识别] 文本加标点--训练BERT
文本加标点--训练BLSTMbert4keras==0.5.9# -*- coding:utf-8 -*-import os import reimport sysimport timeimport jiebaimport gensim import loggingimport numpy as npimport pandas as pdfrom tqdm import tqdmimport multiprocessingfrom bert4keras.snippe.原创 2021-07-19 20:04:29 · 425 阅读 · 0 评论 -
[语音识别] 文本加标点--LSTM预测
文本加标点--训练BLSTMbert4keras==0.5.9# -*- coding:utf-8 -*-import os import reimport sysimport timeimport jiebaimport gensim import loggingimport numpy as npimport pandas as pdfrom tqdm import tqdmimport multiprocessingfrom bert4keras.snippets原创 2021-07-19 20:00:23 · 638 阅读 · 1 评论 -
[语音识别] 文本加标点--训练BLSTM+ATTENTION
文本加标点--训练BLSTMbert4keras==0.5.9# -*- coding:utf-8 -*-import os import reimport sysimport timeimport jiebaimport gensim import loggingimport numpy as npimport pandas as pdfrom tqdm import tqdmimport multiprocessingfrom bert4keras.snippets原创 2021-07-19 19:51:20 · 334 阅读 · 0 评论 -
[语音识别] 文本加标点--训练BLSTM
文本加标点--训练BLSTMbert4keras==0.5.9# -*- coding:utf-8 -*-import os import reimport sysimport timeimport jiebaimport gensim import loggingimport numpy as npimport pandas as pdfrom tqdm import tqdmimport multiprocessingfrom bert4keras.snippets原创 2021-07-19 19:49:19 · 247 阅读 · 0 评论 -
[语音识别] 文本加标点--训练LSTM
文本加标点--训练LSTMkeras版本:# -*- coding:utf-8 -*-import os import reimport sysimport timeimport jiebaimport gensim import loggingimport numpy as npimport pandas as pdfrom tqdm import tqdmimport multiprocessingfrom bert4keras.snippets import ..原创 2021-07-19 19:46:16 · 392 阅读 · 1 评论 -
[语音识别] 文本加标点--准备训练数据 (适用于LSTM与BERT)
Paper: U2: Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech Recognition WeNet: Production First and Production Ready End-to-End Speech Recognition Toolkit, v1. WeNet: Production Oriented Streaming and Non-streaming En.原创 2021-07-19 19:19:19 · 544 阅读 · 2 评论 -
[语音识别] kaldi -- aidatatang_200zh脚本解析:三音速详解
# train tri1 [first triphone pass]steps/train_deltas.sh --cmd "$train_cmd" \2500 20000 data/train data/lang exp/mono_ali exp/tri1 || exit 1;# steps/train_deltas.sh <num-leaves> <tot-gauss> <data-dir> <lang- dir> <alignment-di.原创 2021-07-17 00:30:12 · 391 阅读 · 0 评论 -
[语音识别] kaldi -- aidatatang_200zh脚本解析:获取对齐文件(对指定的数据进行对齐,作为新模型的输入)
输入:tree & final.mdl & text & L.fst & feats输出:ali.JOB.gz (根据重新构建的图产生) & final.mdl (cp from 训练过程的最终结果)steps/align_si.sh --cmd "$train_cmd" --nj 10 \ data/train data/lang exp/mono exp/mono_ali || exit 1;流程:1. 根据$use_graphs(默认是原创 2021-07-17 00:22:58 · 327 阅读 · 0 评论 -
[语音识别] kaldi -- aidatatang_200zh脚本解析:单音素解码
输入:feats & final.mdl & HCLG.fst输出:lat.JOB.gz## 在dev数据集上执行steps/decode.sh --cmd "$decode_cmd" --config conf/decode.config --nj 10 \ exp/mono/graph data/dev exp/mono/decode_dev## 在test数据集上执行steps/decode.sh --cmd "$decode_cmd" --config conf/原创 2021-07-17 00:08:54 · 351 阅读 · 0 评论 -
[语音识别] kaldi -- aidatatang_200zh脚本解析:构建解码图
输入:final.mdl & tree & L_disambig.fst & G.fst输出:HCLG.fst (在exp/xxxx/graph下)## 构建解码图### mkgraph.sh主要生成了HCLG.fst,后续识别主要利用了三个文件,分别是final.mdl、HCLG.fst、words.txt(从lang文件夹 cp过来)。utils/mkgraph.sh data/lang_test exp/mono exp/mono/graph || exit 1原创 2021-07-17 00:05:51 · 342 阅读 · 0 评论 -
[语音识别] kaldi -- aidatatang_200zh脚本解析:音素训练
输入:输出:steps/train_mono.sh --cmd "$train_cmd" --nj 10 \ data/train data/lang exp/mono || exit 1;流程:1. apply-cmvn # 对feats.scp做归一化处理2. add-deltas # 训练数据增加差分量,比如16维度mfcc特征增加2阶差分量后变成48维度2. gmm-init-mono # 初始化单音素模型,生成0.mdl、tree3. compile-train-g原创 2021-07-16 02:22:17 · 310 阅读 · 0 评论 -
[语音识别] kaldi -- aidatatang_200zh脚本解析:检查相关模型
输入:data/local/lm/3gram-mincount/lm_unpruned.gz输出:G.fstlocal/format_data.sh流程:1. 解压lm_unpruned.gz并通过arpa2fst转换成G.fst (语言模型概率就成了图权重的一部分)gunzip -c "$arpa_lm" | \ arpa2fst --disambig-symbol=#0 \ --read-symbol-table=data/lang_test/words原创 2021-07-16 02:18:26 · 459 阅读 · 0 评论 -
[语音识别] kaldi -- aidatatang_200zh脚本解析:语言模型训练
输入:data/local/train/text data/local/dict/lexicon.txt输出:data/local/lm (含text.no_oov, word.counts, unigram.counts, word_map, 3gram-mincount/lm_unpruned.gz)local/train_lms.sh || exit 1;流程:text.no_oov 把data/local/train/text的文件名索引替换成<UNK> word原创 2021-07-16 02:17:15 · 429 阅读 · 0 评论 -
[语音识别] kaldi -- aidatatang_200zh脚本解析:语言模型准备
输入:data/local/dict输出:data/lang (Phone Sets), (L compilation) ...可选参数:--num-sil-states <number of states> (静音音素的状态数,预设是5) --num-nonsil-states <number of states>(非静音音素的状态数,预设是3) --position-dependent-phones (true|false)(是否开启音素位置标记) --shar原创 2021-07-16 02:15:03 · 232 阅读 · 0 评论 -
[语音识别] kaldi -- aidatatang_200zh脚本解析:词典准备
输入:text(所有录音的分词文本信息- 如果是自己的数据没有人工分词可能要提前jieba等工具分词一下)输出:data/local/dict文件夹(含extra_questions.txt、lexicon.txt、silence_phones.txt、nonsilence_phones.txt、optional_silence.txt等文件)local/prepare_dict.sh || exit 1;流程:1.处理自身数据集- 获取数据集中所有单词【从text中获取】->原创 2021-07-16 02:13:42 · 441 阅读 · 0 评论 -
[语音识别] kaldi -- aidatatang_200zh脚本解析:数据准备
输入:解压后的语料库路径(data/aidatatang_200zh)输出:text, wav.scp, utt2spk, spk2utt# Data Preparation: generate text, wav.scp, utt2spk, spk2uttlocal/data_prep.sh $data/aidatatang_200zh/corpus $data/aidatatang_200zh/transcript || exit 1;流程:1.参数/文件夹路径等效验2.检验是原创 2021-07-16 02:11:52 · 767 阅读 · 0 评论 -
[语音识别] kaldi -- aidatatang_200zh脚本解析:下载数据
输入:语料库位置($data) 数据下载路径($data_url)输出:在$data文件夹下新增解压后的语料库(corpus和transcript文件夹,corpus含音频文件和说话人信息等)可选参数:--remove-archive 决定是否要在解压后删除data压缩包(默认关闭)local/download_and_untar.sh $data $data_url aidatatang_200zh || exit 1;流程:1.判断是否开启解压后删除压缩包的开关(根据--re原创 2021-07-16 02:10:08 · 1335 阅读 · 0 评论 -
[语音识别] kaldi -- aidatatang_200zh脚本解析: 数据集介绍
格式 16kHz 16bit,wav,单声道 录音环境 安静的室内,噪音不影响语音识别 录音内容 30万条口语化句子 录音内容 30万条口语化句子 录音人 6,408 人 男性 2,999 人,女性 3,301 人 录音人 ≤20 岁 1,481 人,21~30 岁 4,412 人,31~40 岁 244 人,40 岁以上 163 人 录音人 录音人员分布于广东、福建、山东、江苏、北京、湖南、江西、香港、澳门等 34个省级行政区域 设备原创 2021-07-14 17:35:53 · 915 阅读 · 0 评论 -
[语音识别] 单音素、三音素、决策树
了解单音素、三音素、决策树主要从几个问题出发:(1)什么是音素?以前的音标现在也可以叫音素,而且现在正广泛的把音标叫音素。 每一种语言中的音素都是不一样的,即使是同种语言中,方言的音素也是不一样的。音素应该与人体的发音严格的区分开,因为音素是指一个有规律的有限的发音系统而人体的发音则是无限的。 以英语为例,英语共有48个音素,其中元音20个,辅音28个。英语辅音和元音在语言中的作用,就相当...原创 2020-03-23 22:19:06 · 2846 阅读 · 0 评论