音频处理
文章平均质量分 65
weixi6
这个作者很懒,什么都没留下…
展开
-
声音的基本特征
一、音量(volume) 基本上两种方式来计算: 1、每个音框的绝对值总和: volume= Si=1n |si| 其中si 是一个音框的第i个取样点,而n则是每个音框的点数。这种方法的计算较简单,只需要整数运算,适合用于低阶台转载 2013-01-04 11:08:55 · 1648 阅读 · 1 评论 -
端点检测 end-point detection
"端点测试"(end-point detection,简称EPD)的目标是要决定音讯开始和结束的位置,所以又可以称为 Speech Detection 或是VAD(Voice Activity Detection)。端点侦测在音讯处理与识别中,扮演一个重要的角色。 常见的端点侦测方法与相关的特征参数,可以分为两大类: 1、时域(time domain)的方法:计算量比较转载 2013-01-04 12:17:55 · 3931 阅读 · 0 评论 -
声音的一些基本概念
一。声音的基本概念 声音代表了空气的密度随时间的变化,基本上是一个连续的函数,但是若要将此信号储存在电脑里,就必须将此信号数位化。一般而言,当我们将声音储存到电脑的时候,将有一下几个参数需要考虑:1、取样频率(sample rate):每秒钟所取得的声音资料点数,以Hertz(简写Hz)为单位。点数越高,声音品质越好,但是资料量越大,常用的取样频率如下: 1)、8K转载 2013-01-04 11:04:30 · 1489 阅读 · 0 评论 -
Wav采样率转换
倒腾了一天的格式转换问题,起因是合成的音频文件不适合在平台上播放,得需先转换到合适的音频格式。之前还真没干过音频处理的事情,摸索起来有点难度。在网上关于采样率转换的资料找的也是纠结。。。坑爹的没一个能让人看懂,在实现原理上看到“卷积”的时候就直接gg思密达了,果断跳之。。。 最后找了个斯坦福的resample开源工具,结束痛苦! 大概介绍一下Wav头文件:原创 2012-03-26 18:13:33 · 6095 阅读 · 0 评论 -
音高追踪
音高追踪的基本流程如下: 1、将整段音讯讯号切成音框(frames),相邻音框之间可以重叠。 2、算出每个音框所对应的音高。 3、排除不稳定的音高值。(可由音量来帅选,或由音高值的范围来过滤。) 4、对整段音高进行平滑化,通常是使用“中位数滤波器”(median filters)。 由一个音框计算出音高的方法很多,可以分为时域和转载 2013-01-04 12:20:23 · 2746 阅读 · 0 评论 -
音频编码汇总
PCMU(G.711U)类型:Audio制定者:ITU-T所需频宽:64Kbps(90.4)特性:PCMU和PCMA都能提供较好的语音质量,但是它们占用的带宽较高,需要64kbps。优点:语音质量优缺点:占用的带宽较高应用领域:voip版税方式:Free备注:PCMU and PCMA都能够达到CD音质,但是它们消耗的带宽也最多(64kbps)。如果网络带宽比较转载 2012-04-13 10:43:04 · 808 阅读 · 0 评论 -
Google Speech Recognition(ASR)
Google的语音识别API至今仍未正式发布,没有很详细的开发文档,只提供一个Service 服务。 Google ASR的API需要提供flac格式的音频,格式转换,可以使用ffmpeg库来处理。当中涉及到具体的库有:json,httpclient, httpcore和commons-logging包。具体代码如下:import java.io.*;import java.net.Ma原创 2012-07-25 10:41:56 · 2961 阅读 · 0 评论