音频处理
chenghaoy
这个作者很懒,什么都没留下…
展开
-
ffmpeg在windows上的安装部署
 1.关于ffmpegFFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec,为了保证高可移植性和编解码质量,libavcodec里很多code都是从头开发的。FFmpeg在Lin...原创 2018-09-17 13:59:38 · 1654 阅读 · 1 评论 -
ffmpeg进行音频格式转换与切割
借助ffmpeg工具对音频格式进行转换,具体代码如下:# _*_ coding:UTF-8 _*_import osdef convert(input_dir, output_dir, au_format): ”“” :param input_dir:输入视频的上级路径 output_dir:保存文件的路径 ...原创 2018-09-17 14:10:17 · 4051 阅读 · 1 评论 -
百度API实现音频识别
借助百度API,通过python实现音频识别,注意,百度仅提供低于60s的python识别接口,且对输入音频格式有一定要求:录音参数必须符合 8k/16k 采样率、16bit 位深、单声道,支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)代码如下:# coding: utf-8import urllib.requestimport jsonimpo...原创 2018-09-17 14:16:30 · 2343 阅读 · 1 评论 -
语音识别入门
原文链接:https://blog.csdn.net/cc1949/article/details/79163801深度学习应用领域,可以分为3大块:图像,语音,文字。最近有时间,研究下语音:(一)定义语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成。一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文、说话者、语音风格等。(二)语音识...转载 2018-09-18 17:52:15 · 8386 阅读 · 5 评论 -
开源语音数据集
英文数据集:1.LibriSpeech ASR corpus:该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐,如果你正在寻找一个起点,请查看已准备好的声学模型,这些模型在kaldi-asr.org和语言模型上进行了训练,适合评估。https://www.openslr.org/12Mini LibriSpeech ASR...原创 2018-09-25 17:19:10 · 25297 阅读 · 3 评论