音视频
文章平均质量分 90
LumiTiger
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
FFmpeg 最常用的 200 条命令分类整理
【代码】FFmpeg 最常用的 200 条命令分类整理。原创 2026-03-24 00:03:19 · 503 阅读 · 0 评论 -
PCM 详解
FFmpeg 中所有 PCM 数据的存储、处理、传递,均基于3 个核心数据结构,分别对应「采样格式」「声道布局」「PCM 数据载体」,源码主要分布在。AV_SAMPLE_FMT_U8, ///< 8位无符号整数 PCM (0~255)AV_SAMPLE_FMT_S16, ///< 16位有符号整数 PCM (-32768~32767) 最常用AV_SAMPLE_FMT_S32, ///< 32位有符号整数 PCM。原创 2026-01-27 23:31:31 · 1894 阅读 · 0 评论 -
AWB算法基础理解
AWB的本质是让相机“理解”什么是白色,从而还原真实色彩。无论在何种光线下,都能拍出色彩自然的照片。原创 2026-01-22 08:52:11 · 890 阅读 · 0 评论 -
视场角(FOV)
例如,GoPro等运动相机提供超宽(SuperView)、宽(Wide)、线性(Linear)等多种FOV模式,用户可以根据拍摄场景(如极限运动、城市街拍)灵活选择,在广阔视野和畸变控制之间取得平衡。Valve Index等设备通过复杂的光学设计(如可调节的镜片与眼部距离、倾斜目镜等)来尽可能提升FOV,让用户更不容易感觉到屏幕边界,从而增强沉浸体验。您可以将其想象为从镜头中心出发,形成一个圆锥形的视野,这个圆锥的顶角就是FOV。反之,FOV越小,则视野越窄,但往往能更清晰地观察远处的细节。原创 2026-01-18 23:12:14 · 1161 阅读 · 0 评论 -
RTMP与RTSP协议
RTMP与RTSP是音视频开发的「基石协议」,RTMP侧重直播推流/拉流与协议转换,RTSP侧重安防摄像头/IPC的流控制。学习路径建议:先通过《FFmpeg入门详解》建立基础认知,再通过《RTSP协议详解与实战》《实时流媒体系统》深入协议细节,最后结合《FFmpeg开发实战》与SRS/ZLMediaKit实现项目落地。所有推荐书籍均与你的C++/嵌入式/音视频开发背景高度匹配,可帮助你高效掌握协议并应用于实际工作中。原创 2026-01-11 23:59:48 · 948 阅读 · 0 评论 -
SRS部署
SRS的核心优势是「简单+高性能」,从单机部署到集群扩展,从基础RTMP到超低延迟WebRTC/SRT,都能通过极简的配置和命令实现。新手建议先从Docker一键部署入手,熟悉基础推流拉流后,再逐步探索转码、协议转换、集群等进阶特性。原创 2026-01-11 23:38:55 · 1076 阅读 · 0 评论 -
ZLMediaKit 全面详解
ZLMediaKit 是一个基于 C++11 开发的高性能、跨平台(Linux/Windows/Mac)的流媒体服务器框架,核心定位是音视频的转发、转码、推拉流、录制、播放高性能:基于 epoll/kqueue 实现的 Reactor 模型,单进程可支持上万并发连接;低延迟:RTMP/HTTP-FLV 延迟可低至 100ms 以内,WebRTC 可至 50ms 以内;易扩展:模块化设计,支持插件化开发,可快速定制业务逻辑;功能全:内置转码、录制、截图、鉴权、按需拉流等核心功能。原创 2026-01-07 23:49:59 · 1334 阅读 · 0 评论 -
Dante 音频 + 视频专用协议
Dante音频+视频专用协议融合方案不是简单叠加,而是优势互补的系统级创新音频优势保留:Dante提供专业级无损音频和微秒级同步,这是任何视频协议无法单独实现的视频传输增强:通过与SRT/NDI/RTMP等视频协议集成,Dante突破了自身视频能力的局限,适应更广泛场景统一管理:Dante Controller和DDM平台提供单一控制点,简化复杂系统的管理和维护选择建议。原创 2025-11-18 08:28:55 · 527 阅读 · 0 评论 -
拉流和推流协议
速度排名推流:WebRTC (最快) > SRT > RTSP > HTTP-FLV > RTMP > HLS/DASH (最慢)拉流:RTSP (最快) > WebRTC > HTTP-FLV > LL-HLS > DASH > 标准HLS (最慢)最新发展方向WebRTC标准化:WHIP/WHEP成为IETF标准,简化与传统流媒体集成低延迟HLS:LL-HLS成熟,延迟降至2-3秒,兼顾兼容性和实时性QUIC应用:Media over QUIC (MOQ)开始商用,连接建立时间减少66%原创 2025-11-18 00:10:53 · 846 阅读 · 0 评论 -
分辨率、帧率、码率
FFmpeg 是一个开源的跨平台音视频处理库,包含了音视频的编解码、封装、解封装、滤镜、播放等功能。核心库:libavcodec:音视频编解码库libavformat:音视频封装/解封装库libavfilter:音视频滤镜库libavdevice:输入/输出设备库libavutil:通用工具库在// ... 其他像素格式在中,AVRationalint num;// 分子int den;// 分母帧率通常表示为AVRational24fps →{24, 1}25fps →。原创 2025-11-17 23:49:08 · 1237 阅读 · 0 评论 -
YUV内存对齐问题
内存对齐是计算机体系结构中的一个基本概念。它指的是数据在内存中的起始地址必须是某个特定值(通常是 2、4、8 或 16 的倍数)的整数倍。内存对齐是为了提升性能和满足硬件要求而对数据在内存中存储地址的限制。在 YUV 平面格式中,对齐主要影响每一行像素数据的长度。为了对齐,行的末尾会被填充额外的字节。FFmpeg 通过AVFrame结构体中的linesize数组来告知用户每个平面每行的实际字节数(包含填充)。在所有涉及到访问视频帧像素数据的操作中,你都必须使用linesize而不是简单地用。原创 2025-11-13 23:54:04 · 951 阅读 · 0 评论 -
FFmpeg中的像素
像素(Pixel)是「图像元素」(Picture Element)的缩写,是数字设备(屏幕、相机、硬盘)中图像的最小基本单位。它无法再分割,所有数字图像(照片、视频帧)都是由无数个像素按矩阵排列组成。FFmpeg 中所有像素格式都在中通过AV_PIX_FMT_YUV420P, // 平面格式:Y、U、V 分开存储,U/V 4:2:0 采样AV_PIX_FMT_YUYV422, // 打包格式:Y0 U Y1 V 交替存储AV_PIX_FMT_RGB24, // 打包格式:R G B 连续存储。原创 2025-11-13 08:59:57 · 710 阅读 · 0 评论 -
音量大小与采样值的关系
要理解音量大小与采样值的关系,需从和两个维度结合分析。在FFmpeg中,这一关系通过volume音频滤镜()具体落地,核心逻辑是。以下结合源码,从“理论→参数转换→采样值处理→输出”分步拆解。声音的物理本质是,振动越强(振幅越大),音量越大。用户调节音量时,输入的是“分贝(dB)”或“倍数”(如或),FFmpeg需先将其转换为(用于直接缩放采样值)。原创 2025-10-24 21:54:00 · 1235 阅读 · 0 评论 -
RGB彩色原理
RGB是“Red(红)、Green(绿)、Blue(蓝)”的缩写,本质是一套“基于光的彩色表示系统”,选择这三种颜色作为原色,核心依据是人眼的视觉生理特性人眼视网膜上有三种“锥体细胞”,分别对“红光(约620-750nm波长)”、“绿光(约495-570nm波长)”、“蓝光(约450-495nm波长)”最敏感;任何颜色的光进入人眼,本质是刺激这三种锥体细胞产生不同强度的神经信号,大脑再将这些信号解读为“特定颜色”;原创 2025-10-17 01:13:29 · 2255 阅读 · 0 评论 -
音频编码原理
模拟信号数字化(ADC:采样+量化)→ 信号优化(预处理)→ 按听觉特性取舍(心理声学模型)→ 精准压缩(变换+量化+熵编码)→ 标准化打包”所有步骤的设计核心都是“在音质和体积之间找平衡”——无损编码优先保音质,有损编码优先缩体积(但通过心理声学模型确保“缩体积不影响听感”)。理解这一逻辑,就能轻松区分不同编码格式(如MP3、AAC、FLAC)的差异,选择适合自己的音频文件。整个流程可简化为“原理环节→FFmpeg实现工具→核心参数模拟采集→avdevice模块→-f dshow-i audio;原创 2025-10-17 01:05:57 · 1073 阅读 · 0 评论 -
采样值用整数还是浮点数表示
整数采样值:是“存储/传输的通用语言”,适合最终交付(如音乐文件、视频配音),FFmpeg 中常用s16s24。浮点数采样值:是“处理/编辑的专业语言”,适合中间环节(如降噪、混音),FFmpeg 中常用flt。FFmpeg 的核心作用:实现两种格式的转换(),并在解码→处理→编码的流程中,自动适配格式需求(如解码到浮点处理,编码到整数输出)。理解这一逻辑,就能在音频处理中灵活选择格式,避免“用整数做后期导致失真”或“用浮点做存储浪费空间”的问题。原创 2025-10-09 22:41:17 · 1278 阅读 · 0 评论 -
一个采样点用多少位表示
比特深度是指用多少个二进制位来表示一个音频采样点的振幅。它决定了音频的动态范围和信噪比,位数越高,音质越好,文件也越大。常见的比特深度有。在ffmpeg中,比特深度和数据类型由采样格式 (sample_fmt共同描述,如s16(16-bit 有符号整数)、flt(32-bit 浮点数)。使用ffmpeg命令行时,可以通过-i查看采样格式,通过参数进行转换。在ffmpeg编程时,通过的sample_fmt成员来获取和设置,并使用计算字节数。原创 2025-10-09 22:26:58 · 872 阅读 · 0 评论 -
什么是PCM
步骤核心任务关键参数解决的问题类比采样时间上离散化采样率(如 44.1kHz)能还原多高的频率?高速连拍:拍得越快,动作越连贯量化幅度上离散化位深度(如 16bit)能区分多细微的强弱?动态范围多大?测量身高:用精确到毫米的尺子比精确到分米的尺子量的更准编码转换为二进制编码格式(PCM本身)如何让计算机存储?将数字转为莫尔斯电码:为每个数字分配一个唯一的点划组合。原创 2025-10-08 19:11:38 · 1143 阅读 · 0 评论 -
为什么高品质音频采样率>=44.1kHz
既然理论下限是40kHz,为什么不定为40kHz或42kHz,而是精确的44.1kHz呢?所以,44.1kHz 不是一个随意选择的数字,而是理论必要性和历史工程约束共同作用下的最优解。A[目标] --> B[“定理要求<br>采样率 > 40kHz”]B --> C[“工程需求<br />需要高于40kHz为滤波器留余量”]C --> D[“历史选择<br />44.1kHz与早期视频设备兼容”]D --> E[“最终确立<br />44.1kHz成为CD及高品质音频标准”]原创 2025-10-08 19:01:14 · 988 阅读 · 0 评论 -
Niginx搭建rtmp流媒体服务器(ubuntu24)
如果需要最新版本或特定配置,可以从源码编译安装。原创 2025-09-24 22:48:43 · 1109 阅读 · 0 评论 -
ffmpeg、ffplay和ffprobe区别
简单来说,FFmpeg是负责“干重活”的,进行各种复杂的音视频处理;ffplay是负责“快速预览和播放”的,让你能看到或听到内容;ffprobe是负责“查看底细”的,告诉你这个音视频文件里面到底有什么、参数如何。原创 2025-09-24 09:01:32 · 543 阅读 · 0 评论 -
PTZ相机无线传输的知识体系
PTZ(Pan-Tilt-Zoom)云台摄像机的无线传输技术是其摆脱线缆束缚、实现灵活部署的关键。为了帮助你系统地掌握这套知识体系,我为你梳理了从入门到精通的学习路径。原创 2025-09-24 00:20:25 · 810 阅读 · 0 评论 -
PTZ相机无线传输的知识体系
PTZ(Pan-Tilt-Zoom)云台摄像机的无线传输技术是其摆脱线缆束缚、实现灵活部署的关键。为了帮助你系统地掌握这套知识体系,我为你梳理了从入门到精通的学习路径。原创 2025-09-24 00:07:01 · 939 阅读 · 0 评论 -
PTZ相机AI相关的知识体系
PTZ(Pan-Tilt-Zoom)云台摄像机与AI技术的结合,极大地提升了其在安防、广电、视频会议等领域的应用价值。为了帮助你系统地掌握PTZ相机相关的AI技术,我为你梳理了下面的学习路径表格。原创 2025-09-24 00:02:23 · 840 阅读 · 0 评论 -
AAC 详解
AAC(高级音频编码)是一种基于MPEG-4 标准的有损音频压缩格式。它旨在提供比前辈(如 MP3)更高的压缩效率和更好的音质。AAC 通过运用感知编码原理,智能地剔除人耳不敏感的冗余信息,从而在保持高音质的同时大幅减小文件体积,非常适合网络传输和有限空间的存储。主要优势高压缩比:在相同音质下,文件比 MP3 更小;在相同大小下,音质比 MP3 更好。音质优异:支持更高采样率(最高96kHz)和更多声道(最高48个),细节更丰富。广泛应用:从移动设备到专业领域,兼容性极强。需要注意有损压缩。原创 2025-09-21 00:02:17 · 1226 阅读 · 3 评论
分享