语音信号处理
文章平均质量分 86
Janie.Wei
这个作者很懒,什么都没留下…
展开
-
ffmpeg的安装与使用
1. 安装1.1 Windows 环境下载地址:http://ffmpeg.org/download.html#build-windows解压文件配置环境变量,将bin路径添加测试,CMD窗口 ffmpeg –version1.2 Linux 环境sudo apt-get install ffmpeg2. 相关概念2.1 容器视频文件本身其实是一个容器(container),里面包括了视频和音频,也可能有字幕等其他内容。常见的容器格式有以下几种:- MP4-原创 2021-12-08 23:05:43 · 2228 阅读 · 0 评论 -
OpenSmile介绍和使用
ComparE_2016,6373个特征,其中65个low level descriptors(LLD),例如音调、MFCC、响度和发声概率。54个统计泛函应用于59个lld,46个统计泛函应用于相应的59个delta系数。对其他6个lld,应用了39个统计泛函。'D:/opensmile-2.3.0/bin/Win32/SMILExtract_Release -configfile D:/opensmile-2.3.0/config/ComParE_2016.conf -appendcsvl..原创 2021-07-19 19:27:18 · 4709 阅读 · 2 评论 -
音视频序列数据分析(RNN->seq2seq->Encoder+Decoder->Attention->Transformer)
1. RNN 针对语音、视频等序列数据,我们需要进行全局时序信息考虑,因此RNN模型是最初最基础的模型结构。 主要可以分析的任务:语音识别、语音合成、视频摘要生成、音视频情感预测等。 存在问题:输出的序列长度与输入序列长度保持一致,不能任意变化。2. Seq2Seq (即 Encoder + Decoder 结构) seq2seq,由Encoder和Decoder两个部分组成,每部分都是一个RNNCell(RNN、LSTM、GRU等)结构。 Encoder将一个序列编码为...原创 2021-05-06 00:22:20 · 1034 阅读 · 0 评论 -
语音信号的时域、频域含义及其表示
1. 时域 & 频域时域:自变量是时间,即横轴是时间,纵轴是信号的变化(振幅)。 如下图中红色曲线, 描述信号随时间变化情况 (二维空间: Time-Amplitude)频域:自变量是频率,即横轴是频率,纵轴是该频率信号的幅度(振幅)。 声音信号在频域表现为多个不同频率、振幅信号组成。(给定频率和振幅,可以得到该信号表示,下图中一条蓝色曲线,周期信号) 2. 时域图(波形图) & 频谱图时域图...原创 2021-04-30 10:58:37 · 12837 阅读 · 3 评论 -
语音信号基本知识和处理
语音信号(音频;声音)是模拟信号,现实生活中表现为连续的、平滑的波形,其横坐标为时间轴,纵坐标表示声音的强弱。我们需要将其保存为数字信号再进行处理。1. 声音三要素1.1 音调人耳对声音高低的感觉称为音调。音调主要与声波的频率有关。声波的频率高,则音调也高。人耳听觉音频范围是20Hz-20000Hz1.2 音量人耳对声音强弱的主观感觉称为响度。响度和声波的振幅有关。一般说来,声波振动幅度越大则响度也越大。1.3 音色音色是人们区别具有同样响度、同样音调的两个声音之原创 2021-04-27 21:14:00 · 11011 阅读 · 5 评论