音视频处理算法
文章平均质量分 81
智能语音处理
0x13
coding...
展开
-
低音频码率 codec
分享两个神经网络的超低音频码率 codec:这两个都是传统声码基础上使用神经网络进一步压缩音频,Lyra 是 google 开发的最低码率 3.2k,音频质量较好而且编译工具是谷歌官方的 bazel(直接支持android,源码使用了 tensorflow lite 推理加速)。LpcNet 码率是 1.6k 不过在嵌入式平台或者移动端有算力要求,音质也稍微差一些。原创 2024-06-30 14:30:37 · 656 阅读 · 0 评论 -
x265 帧内编码
x265 帧内编码全流程。原创 2022-12-04 16:29:44 · 1088 阅读 · 0 评论 -
x265 帧间预测
x275 帧间预测原流程梳理,包括CTU划分、Merge/Skip、AMVP计算,运动估计,运动补偿、亚像素差值等等。原创 2022-12-04 16:22:31 · 1298 阅读 · 0 评论 -
h264编码算法流程
这里指的场景切换是指场景1切换到场景2,而后后切换回场景1,视频里面的场景大部分是来回切换小部分是一直切换新场景,那么在编码器检测到场景切换后就会检测当前缓存是否有当前场景比较相近的长期参考帧,找出来用它作为运动估计的参考。注意上面都是亮度预测,8*8用于色度预测,色度的Cr和Cb分量的预测模式选择是一样的。在结果变换和量化之后,需要进行游程编码,由于标准支持了 4*4、8*8等变换,以及对一些预测方式的直流分量进行了哈达玛变换,一共有13种块类型,不同的快类型游程编码的扫描系数不同。原创 2022-11-15 14:31:11 · 2519 阅读 · 1 评论 -
视频编码全流程
每一帧图像,划分成一个个块来进行编码的,这一个个块在 H264 中叫做宏块,宏块大小一般是16x16(H264、VP8),32x32(H265、VP9),64x64(H265、VP9、AV1),128x128(AV1)这几种。一个图像一个帧内,每16*16作为一个字块,相邻的字块之间有较强的相关性和相似性。另外同一个 16*16 的小块内基本上每个像素点的颜色是一样的可以减少编码数据量。原创 2022-11-14 15:03:31 · 2715 阅读 · 0 评论 -
webrtc-agc 自动增益控制算法
最近又开始调 webrtc-agc 算法,这里记录自适应模拟增益模式下音量反馈调节的过程。原创 2023-11-08 22:05:29 · 1001 阅读 · 1 评论 -
声学回声消除原理
上图中第一行为近端信号 s(n),已经混合了近端人声和扬声器播放出来的远端信号,黄色框中已经标出对齐之后的远端信号,其语音表达的内容一致,但是频谱和幅度(明显经过扬声器放大之后声音能量很高)均不一致,意思就是:参考的远端信号与扬声器播放出来的远端信号已经是“貌合神离”了,与降噪的方法相结合也是不错的思路,但是直接套用降噪的方法显然会造成回声残留与双讲部分严重的抑制。消除线性回声,以x(n)为远端参考信号,经过一个传输信道w(n),得到一个回声信号的估计值y(n),同时近端麦克风采集的信号的d(n)。原创 2022-11-01 10:34:22 · 1446 阅读 · 0 评论 -
音频回声消除测试类
":audio_aec_test" # 追加在这三个可执行类后面即可。// 测试用例参考 audio_processing_unittest.cc。// 引入头文件参考 peerconnection。// fread 每次读取10ms的数据。这里演示 webRTC 的 3A算法测试类。// 采样率和声道数。// 只开启 aec。原创 2022-10-24 00:08:20 · 542 阅读 · 0 评论 -
x265 windwos使用wsl调试
/ 该模块使用的函数和编码模块是一样的。* planar格式,先连续存储所有像素点的Y分量,紧接着存储所有像素点的U,随后存储所有像素点的V。std::cout原创 2023-02-02 11:18:16 · 158 阅读 · 0 评论 -
webRTC-audio-processing 编译
out:创建空目录,在这下面执行 cmake.. 生成 Makefile 之后再执行 make 进行编译,最终得到的测试项目可执行文件 webtrc-audio-process。项目源码:https://e.coding.net/TangYuFan/speech-processing/WebRTC-AudioProcessing-main.git。src:项目源码目录,测试类 webrtc_audio_processing.cc。CMakeLists.txt:编写编译配置生成文件。原创 2022-10-24 00:08:46 · 1871 阅读 · 0 评论