![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ASR
Sophia$
算法
展开
-
语音识别(一):介绍和简单实现
1. 语音识别介绍语音识别的最主要过程是:特征提取:从声音波形中提取声学特征; 声学模型(语音模型):将声学特征转换成发音的音素; 语言模型使用语言模型等解码技术转变成我们能读懂的文本。语音识别系统的典型结构如图1所示:图1 语音识别结构1.1 声学特征提取声音实际上一种波,原始的音频文件叫WAV文件,WAV文件中存储的除了一个文件头以外,就是声音波形的一个个点。如图2所示:图2 声音波形示意图要对声音进行分析,首先对声音进行分帧,把声音切分成很多小的片段,帧与帧之间有一定的交叠,转载 2020-07-24 17:09:56 · 11356 阅读 · 4 评论 -
使用CTC进行序列建模
下面是连结时序分类(Connectionist Temporal Classification,CTC)的一个可视化指导图,CTC是一种用于在语音识别,手写识别和其他序列问题中训练深度神经网络的算法。CTC的工作原理1.引言对于语音识别,我们有一个声音片段和对应校正后的转写文本数据集。不幸的是,我们不知道如何将文字记录中的字符与音频对齐,这使得训练语音识别器比最开始想的看起来更难。如果没有这种对齐, 我们就无法使用简单的方法。我们可以设计一个规则, 如 “一个字符对应于十个输入”。但人们的说话.转载 2020-07-24 13:07:43 · 1168 阅读 · 0 评论 -
5 Open Source Speech Recognition/Speech-to-Text Systems
语音文字转换 (STT) 系统就像它名字所蕴含的意思那样,是一种将说出的单词转换为文本文件以供后续使用的方法。-- Simon James语音文字转换技术非常有用。它可以用到许多应用中,例如自动转录,使用自己的声音写书籍或文本,用生成的文本文件和其他工具做复杂的分析等。在过去,语音文字转换技术以专有软件和库为主导,要么没有开源替代品,要么有着严格的限制,也没有社区。这一点正在发生改变,当今有许多开源语音文字转换工具和库可以让你随时使用。这里我列出了 5 个。1. DeepSpeech 项转载 2020-07-09 16:56:53 · 466 阅读 · 0 评论