Kaldi语音识别
科研小王v
目前在蚂蚁研究院实习,主要从事数字人相关的研究。
个人主页:https://conallwang.github.io/zh-cn/
展开
-
【Kaldi 新手入门】手把手教你搭建简易英文数字ASR系统
* 写作本文的目的:一方面是为了帮助Kaldi的新手更好的入门这个语音识别工具,另一方面是为自己的学习做一个笔记,也方便日后的学习查阅. *Kaldi的下载安装 备注: 虽然Kaldi可以同时运行在Windows和Linux两个平台上,但大多数人还是使用Linux系统进行运行,原因是安装运行时的错误相对较少,而在Linux操作系统中应用最广的是Ubuntu,在这里我就仅叙述Kal...原创 2018-09-05 15:43:58 · 9117 阅读 · 27 评论 -
Kaldi运行thchs30中文语音识别教程
转载自 https://www.jianshu.com/p/c48466d36162 这篇文章写的比较详细,适合新手入门观看,特地摘录下来以供分享和之后学习说明测试环境:Ubuntu16.04建议:仔细地按照此教程来,有些人中间出错是因为没仔细按照教程的步骤和细节文档更新时间:20180713使用thchs30训练最后的识别准确率约:64%运行thchs30步骤安...转载 2018-09-09 19:06:28 · 8875 阅读 · 9 评论 -
Python爬虫实现百度贴吧文本爬取【每天近千万级数据量】
一、概述 我先澄清一下,我并不是单纯的为了爬数据而爬数据,这其实是为了之后的语音识别的语言模型训练积累数据的,所以我就实现了一个这样的爬虫,它可以不断的爬取各个指定贴吧的帖子文本内容,并把它存入MongoDB,而且可以自己根据电脑的配置和MongoDB的极限指定允许并发的线程数,我在我的电脑上使用的是4个线程,已经可以达到每日...原创 2018-11-23 23:53:42 · 1851 阅读 · 5 评论 -
【语音识别学习】未分词的2-gram语言模型统计Python实现(含源码)
概述      对于语音识别来说,大体上就分为三个方面,一个是声学模型(acoustical model)的训练,一个是语言模型(language model)的训练,最后就是对给定一段语音的解码了,当然,咱们今天讨论的是第二部分,其他的就先丢到一边吧!(在这给大家打一打气,其实语言模型是这三个方面里最复原创 2018-11-22 17:29:31 · 5420 阅读 · 2 评论 -
【总结】几个简单语言模型平滑方法
首先说一下为什么要采用平滑操作: 因为在数据库统计词语的结果中,一定会出现大量的零(稀疏),从而导致识别的结果出现错误,比如在你的语料库中没有'他'这个字,统计概率就为0,但你不能因为这个的概率为0,就把所有的带’他’的句子统计为概率是0,这是不合理的,所以要对所统计的结果进行平滑操作,避免统计结果稀疏。Laplace平滑 这是平滑方法中最为简单粗暴的一个方法,原理就是让每个统计的频数至少为...原创 2018-11-17 23:06:36 · 3573 阅读 · 0 评论 -
【语音识别学习】科大讯飞APPID的申请以及SDK下载
现在是开源的时代,大家也都习惯了用开源的工具,这里我就编写一个关于如何申请科大讯飞APPID的教程,当然,对于大多数别的开放平台也是几乎同样的流程,大家要学会举一反三呦!大致流程 我依旧是那么通情达理,照顾到没有太多时间看完全文的大牛,这里给出一个简易的阉割版步骤,也希望对大家有所帮助。登录科大讯飞开放平台官网<...原创 2019-03-23 09:26:02 · 12957 阅读 · 1 评论 -
【语音识别学习】Linux下用Python实现科大讯飞语音识别和语音合成接口调用(github源码)
最近要跟着导师做一个语音识别的工程项目,由于在前期只需要快速的建立软件架构,所以选择使用科大讯飞提供的云接口进行快速开发,但科大讯飞在Linux的sdk中只提供了c++的实现,为了今后的开发方便,我将其进行了Python封装,也把源码分享在这里,为大家提供方便。一、概述 虽然在我的github源码中已经写了README,...原创 2019-03-23 09:31:45 · 4403 阅读 · 12 评论 -
【情感识别学习】情感识别的一种整体实现思路
今天刚在实验室开完组会,老师介绍了一下情感识别的大体步骤原理,为了理清思路,也是为了以后捡起来比较方便,这里做简短的总结记录一、整体思路我简单的用上面这一幅图来对模型的训练过程进行解释,总的思路如下:首先,把原始的语音数据进行特征提取(通常会采用MFCC),获取到这段语音数据的特征向量。然后由于语音数据的收集比较困难,所以这里采用调整UBM的方式产生自适应的GMM,用于之后的操作...原创 2019-03-31 14:46:24 · 2246 阅读 · 0 评论 -
【语音识别】Linux下关于语音识别中的resample的问题
先说一下问题背景,之前由于自己购买设备不小心,买了一个双咪头的麦克风,到录音的时候可就费劲了,一会立体声,一会单声道,一会44100kHz,一会16000kHz,反正极其不稳定,为了后续处理方便,我就想直接把所有输入音频都转化为16000kHz,单声道的,虽然好像很简单,但初学还是踩了很多坑。Resample 和 Stereo 转 Mono这里本来还想讲讲故事的,但还是算了,直接上干货吧...原创 2019-04-22 17:16:09 · 544 阅读 · 0 评论