2019年07月_Holidaylovesam

原创 Python实现语音识别：百度baidu-API

百度语音识别通过 REST API 的方式给开发者提供一个通用的 HTTP 接口。上传需要完整的录音文件，录音文件时长不超过60s。官方文档库：http://ai.baidu.com/docs#/ASR-Online-Python-SDK/top调用方式开发文档写可以两种方式调用。可以下载使用SDK 不下载使用SDK：根据文档组装url获取token，处理本地音频以JSO...

2019-07-27 15:39:04 10076 2

原创语音识别的端点检测

端点检测的概念端点检测，也叫语音活动检测，Voice Activity Detection，VAD，它的目的是对语音和非语音的区域进行区分。通俗来理解，端点检测就是为了从带有噪声的语音中准确的定位出语音的开始点，和结束点，去掉静音的部分，去掉噪声的部分，找到一段语音真正有效的内容。在噪声环境下使用语音识别系统，或者讲话人产生情绪或心里上的变化，导致发音失真、发音速度和音调改变，都会产生Lo...

2019-07-27 15:38:50 20687 1

原创语音信号的采集

语音信号的采集一般的语音来源主要是三种，业内开放的通用训练集数据、特定用户录制的数据，采用TTS技术合成的数据。部分公司会将用户的指令数据进行收集，从而丰富通用训练集，提取高频数据集，Bad Case数据集，专项数据集（方言、中英文混合），特殊场景数据集（导航、电话、音乐等其他应用冲突的场景）等等。在录制和采集语音数据时，业内一般有如下几个指标，这些指标也都和语音识别的原理及架构...

2019-07-27 15:38:39 6347

原创语音识别的架构

语音识别的架构语音识别系统语音识别系统是一个先编码后解码的过程，主要包括语音信号的采样和预处理部分、特征参数提取部分、语音识别核心部分以及语音识别后处理部分。可以看下方的架构图。Speech，原始语音信号Feature Extraction，特征抽取，由原始的语音得到语音向量。Acoustic Model、Language Model、Pronunciation Dict...

2019-07-27 15:38:26 4999

原创语音识别：声学的要素和特征

声学的基本概念声音，来源于振动的物体，辐射声音的振动物体称之为声源。声波的概念声波，一般用频率和声压两个指标形容。人类的听觉范围为20Hz～20000Hz，即20hz~20kHz，最敏感的是1000hz~3000hz之间的声音。低于人类听觉范围的叫做次声波，高于这个范围的叫做超声波。声波指标概念分类 ...

2019-07-27 15:38:04 6165

原创语音识别的概念和前世今生

最近在学习语音识别的一些知识，做了一些笔记，这篇文章讲讲语音识别的发展，以及相关的几个容易混淆的概念。语音识别的背景从物理声音被转换为电信号，再通过模数转换器转换为数据。一旦被数字化，就可适用若干种模型。语音识别的技术，就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。发展阶段50年代：贝尔实验室开始语音识别的研究，主要研究基于简单的孤立词的语音识别系...

2019-07-24 21:57:01 3439

原创 Python练习：实现数据库取数据并回写到图片

最近在调研python是否可以实现：将指定格式的文字，按照一定的格式回填到图片中，然后对图片设置不同的效果，从而构造一些数据，后期来进行训练，看文字的识别准确度。解决思路：1、结构化数据管理：将格式的文字以结构化数据体现在数据库或Excel2、Python实现数据库连接：使用Pymysql连接数据库3、Python实现回填文字：使用Pillow库带的ImageFont和ImageD...

2019-07-17 19:03:19 944

原创 Python连接数据库：pymysql

安装连接SQL的依赖库常用的依赖库有MySQLdb、pyMysql最初尝试了mysqldb，pip install mysqldb安装时报错，ERROR: Could not find a version that satisfies the requirement mysqldb (from versions: none)ERROR: No matching distribution ...

2019-07-17 18:50:15 900

简言