音视频处理
依然风
为中华之创新而读书
展开
-
深入研究之回音抑制算法(echo canceller)
http://lists.xiph.org/pipermail/speex-dev/2006-July/004652.html由于摄像头和手机在通话过程中,如果两个设备靠的很近,会产生非常尖锐的声音,用户体验非常不好。以前一直想解决这个问题,但是不知道如何寻找这方面的资料。今天问了一下大学的老师,原来这个东西叫做回声抑制。老师提供了两种解决方案:1.一种是通过硬件实现。由摄像头那端原创 2013-04-07 23:34:41 · 6163 阅读 · 0 评论 -
通过sps和pps得到视频的width和height
You must run a complex function to extract video dimensions from Sequence Parameter Sets. How to do this? Well first you must write your own Exp-Golomb decoder, or find one online... in live555 source转载 2013-07-01 15:13:48 · 5518 阅读 · 1 评论 -
如何区分mp4格式里面mdat中的音频和视频数据
首先在minf里面有个vmhd和smhd,那么vmhd代表视频,smhd代表音频然后在stsz中stsz Box00 00 73 D8 size of stsz,2073 74 73 7A: stsz00 00 00 00: version00 00 00 00: sample-size00 00 1C F1: sample-count00 0原创 2013-07-01 17:18:39 · 9819 阅读 · 1 评论 -
MP4文件格式的解析,以及MP4文件的分割算法
mp4应该算是一种比较复杂的媒体格式了,起源于QuickTime。以前研究的时候就花了一番的功夫,尤其是如何把它完美的融入到视频点播应用中,更是费尽了心思,主要问题是处理mp4文件庞大的“媒体头”。当然,流媒体点播也可以采用flv格式来做,flv也可以封装H.264视频数据的,不过Adobe却不推荐这么做,人家说毕竟mp4才是H.264最佳的存储格式嘛。 这几天整理并重构了一下mp4文件的解转载 2013-07-01 17:52:42 · 2257 阅读 · 1 评论 -
mp4格式解析
每个box的具体格式:http://blog.csdn.net/szu030606/article/details/5943279每个box的作用:http://blog.sina.com.cn/s/blog_48f93b530100jz5f.html原创 2013-07-02 10:00:20 · 1530 阅读 · 0 评论 -
语音技术研究工作者
简要给大家介绍一下语音怎么变文字的吧。首先说一下作为输入的时域波形。我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式,必须转成非压缩的纯波形文件,比如Windows PCM文件,即wav文件来处理。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。采样率越大,每毫秒语音中包含的点的个数就越多。另外声音有单通道双通道之分,还有四通道的等等。对语音识别任务来说,转载 2013-12-08 22:50:58 · 1007 阅读 · 0 评论 -
音视频基本知识理解
1.音频采样率音频采样率表示每秒钟采样的次数。如何计算采集一帧需要的时间?假设一帧数据是640个字节,那么640/(采样率*每次采样所占的字节数)640/(8000 * 2) = 0.04 也就是40ms采样一次数据,每次采样640个字节2.RGB24 和 RGB32RGB24很容易理解,可以理解为每个RGB占8个bit,总共24个bit那么RGB32是什么意思呢?原创 2014-03-14 08:40:33 · 1051 阅读 · 0 评论