Python PyAV ：FFmpeg 在 Python 中的最强绑定库

原创于 2025-11-24 14:42:41 发布 · 119 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #ffmpeg #开发语言

python基础到进阶教程专栏收录该内容

237 篇文章

订阅专栏

前言

在视频处理、流媒体分析、实时转码、直播推流、视频抽帧、音视频合成等众多场景中，FFmpeg 一直是最强大的音视频处理工具。但原生 FFmpeg 使用 C 开发，对 Python 程序员非常不友好。

为了解决这个痛点，**PyAV（PyAV: Pythonic bindings for FFmpeg libraries）**应运而生。

PyAV 不是简单调用 FFmpeg 命令行，而是直接通过 Cython 对 FFmpeg（libavformat、libavcodec、libavutil…）进行底层绑定，使 Python 能以接近 FFmpeg 原生 API 的方式操作音视频流，既强大又灵活。

如果你正在做：

视频抽帧与帧级分析（OpenCV + PyAV）
视频压缩转码
视频拼接与剪辑
RTSP/RTMP 流解析
实时摄像头分析
直播流的二次推流
视频 AI 预处理（如 YOLO、MediaPipe 等）

那么 PyAV 是你必须掌握的工具。

本文将从原理、安装、使用、视频解码、音频处理、帧操作、流媒体、性能优化、与其他库对比等多个维度全面解析 PyAV。

一、什么是 PyAV？它与 FFmpeg 有什么关系？

PyAV 是 FFmpeg 的 Python 绑定库，允许 Python 程序调用 FFmpeg 的底层 C API（libavcodec、libavformat、libavdevice 等）。

简而言之：

PyAV = Python 直接操作 FFmpeg 库，而不是 subprocess 执行 ffmpeg 命令

优势：

✔ 速度快（底层调用 C，不使用命令行）

比 subprocess + FFmpeg 快数倍。

✔ 支持逐帧读取与解码

这是 OpenCV 不能实现的功能（OpenCV 解码性能有限）。

✔ 强大的编码/解码能力

支持所有 FFmpeg 支持的格式。

✔ 可处理直播流（RTSP/RTMP/HTTP）

OpenCV 读取 RTSP 的效率远低于 PyAV。

✔ 可结合 AI 模型做实时推理

PyAV 在视频 AI 处理场景非常常用（如 YOLO、MediaPipe、TensorRT 输入预处理）。

二、PyAV 的核心功能一览

PyAV 涵盖 FFmpeg 的绝大多数能力：

视频解码（H264 / HEVC / VP9 / AV1 …）
视频编码（编码 mp4、h264、mpeg4）
音频解码（AAC、MP3 …）
音频编码（wav、aac…）
多媒体容器解析（MP4、MKV、AVI、M3U8）
网络流媒体（RTSP、RTMP、HLS）
视频逐帧提取
视频合并、重编码
视频缩放、裁剪、格式转换
音视频同步处理、时间戳管理
与 OpenCV 深度结合
与 NumPy、PIL 高度兼容

PyAV 是目前 Python 中最强的音视频底层库。

三、PyAV 安装与环境配置

PyAV 依赖 FFmpeg，因此安装方式因系统不同而异。

3.1 Linux 安装

Linux 最简单：

sudo apt update
sudo apt install ffmpeg
pip install av

3.2 macOS 安装

先安装 FFmpeg：

brew install ffmpeg
pip install av

3.3 Windows 安装

Windows 的 FFmpeg 需要手动下载：

下载 FFmpeg（full version）：
ffmpeg.org
解压到 C:\ffmpeg

然后配置环境变量：

C:\ffmpeg\bin

安装 PyAV：

pip install av

四、PyAV 入门：视频读取与逐帧处理

4.1 打开视频文件

import av

container = av.open("video.mp4")

4.2 遍历视频帧（核心用法）

for frame in container.decode(video=0):
    img = frame.to_ndarray(format='bgr24')

将帧转换为 NumPy 数组后，可以与 OpenCV、YOLO 等结合使用。

示例：

import cv2

for frame in container.decode(video=0):
    img = frame.to_ndarray(format='bgr24')
    cv2.imshow("frame", img)
    cv2.waitKey(1)

PyAV 能比 OpenCV 更稳定地处理 H264/H265 视频，尤其是 RTSP！

4.3 获取视频基本信息

video_stream = container.streams.video[0]

print(video_stream.codec.name)   # h264
print(video_stream.width, video_stream.height)
print(video_stream.average_rate)
print(video_stream.duration)

五、视频转码与保存（编码）

PyAV 可以将逐帧处理后的结果重新编码为视频。

5.1 创建输出视频

import av

output = av.open("output.mp4", mode="w")
stream = output.add_stream("h264", rate=30)
stream.width = 1920
stream.height = 1080
stream.pix_fmt = "yuv420p"

5.2 写入帧

for frame in frames:
    new_frame = av.VideoFrame.from_ndarray(frame, format='bgr24')
    packet = stream.encode(new_frame)
    if packet:
        output.mux(packet)

5.3 别忘记写入剩余缓存帧

packet = stream.encode()
if packet:
    output.mux(packet)

output.close()

六、音频处理：解码与重采样

音频相关 API 与视频类似。

6.1 解码音频

container = av.open("test.mp4")

for frame in container.decode(audio=0):
    audio_data = frame.to_ndarray()

6.2 重采样（格式/采样率转换）

resampler = av.audio.resampler.AudioResampler(
    format="s16",
    layout="mono",
    rate=16000
)

new_audio = resampler.resample(frame)

这在 ASR（自动语音识别）模型中非常常见（如 Whisper 需要 16kHz）。

七、RTSP / RTMP 实时流处理

PyAV 在实时流处理场景几乎碾压 OpenCV。

7.1 RTSP 读取

container = av.open("rtsp://admin:pwd@192.168.1.10:554/stream1")

for frame in container.decode(video=0):
    img = frame.to_ndarray(format="bgr24")

OpenCV 在 RTSP 会频繁卡顿，而 PyAV 稳定得多。

7.2 用 PyAV 做实时 AI 视频推理

超级常用：

import torch
import cv2
import av

model = ...  # YOLO / MediaPipe / Custom model
container = av.open("rtsp://...")

for frame in container.decode(video=0):
    img = frame.to_ndarray(format='bgr24')

    # AI 推理
    result = model(img)

    # 显示
    cv2.imshow("AI", img)
    cv2.waitKey(1)

PyAV + YOLOv8 是当前视频 AI 最常见组合。

八、PyAV 进行视频剪辑、裁剪、合并

8.1 裁剪视频

步骤：

解码
修改 ROI
编码输出

示例：

for frame in container.decode(video=0):
    img = frame.to_ndarray(format='bgr24')

    crop = img[100:400, 100:400]

8.2 合并视频（多段连接）

只需按顺序 mux：

output = av.open("out.mp4", mode="w")
stream = output.add_stream("h264")

for file in ["1.mp4", "2.mp4"]:
    c = av.open(file)
    for frame in c.decode(video=0):
        packet = stream.encode(frame)
        output.mux(packet)

九、PyAV 与 OpenCV 的区别

功能	PyAV	OpenCV
视频解码性能	⭐⭐⭐⭐⭐	⭐⭐⭐
支持格式	与 FFmpeg 一致	较少
RTSP 流稳定性	非常稳定	容易丢帧卡顿
音频处理	支持	不支持
视频编码	支持	有限
与 AI 结合	极佳	普通
底层控制	强	弱

👉 PyAV 更适合视频 AI、直播流、转码等专业任务
👉 OpenCV 适合图像处理，不适合视频底层处理

十、PyAV 性能优化

10.1 使用多线程解码

PyAV 解码端可设置多线程：

container = av.open("video.mp4", options={"threads": "4"})

10.2 GPU 硬件解码（需要 FFmpeg 支持）

例如使用 NVDEC：

container = av.open("input.mp4", options={"hwaccel": "cuda"})

硬件解码速度可提升 5–10 倍！

十一、PyAV 常见问题 FAQ

Q1：PyAV 和 FFmpeg-python 有什么区别？

特性	PyAV	ffmpeg-python
调用方式	底层 C API	生成 FFmpeg 命令行
性能	高	中
精细控制	很强	弱
可实时逐帧处理	✔	❌

Q2：为什么 PyAV 读取 RTSP 更稳定？

因为 PyAV 直接使用 FFmpeg 的流媒体模块，而 OpenCV 只是简单封装。

十二、总结：为什么推荐 PyAV？

PyAV 是目前 Python 世界中最强的音视频处理工具之一：

✔ 直接使用 FFmpeg 底层能力

✔ 可逐帧处理，适合 AI 推理

✔ 支持所有 FFmpeg 格式

✔ RTSP/RTMP/HLS 应用强大

✔ 视频编码/转码能力一流

✔ 结合 NumPy/OpenCV/YOLO 非常高效

如果你正在做视频 AI、视频流媒体、视频处理、音频分析等任务，PyAV 必须是你的首选库。

🧪 PyAV 实战：从视频读取、处理到保存的完整示例

下面将通过三个典型的真实项目实战，帮助你快速掌握 PyAV 在视频处理中的实际应用能力。

实战 1：逐帧读取并处理视频（灰度化示例）

这是最经典的 PyAV 用法：读视频 → 处理 → 写出新视频。
适用场景包括：

视频预处理
视频压缩转换
视频分析（CV 模型前处理）

📌 功能

将视频逐帧转换为灰度图，并保存为新的视频文件。

✔️ 代码示例

import av
import numpy as np

input_path = "input.mp4"
output_path = "output_gray.mp4"

# 打开输入视频
input_container = av.open(input_path)

# 创建输出视频容器
output_container = av.open(output_path, mode='w')

# 设置编码器（使用 H.264）
stream = output_container.add_stream('h264', rate=30)
stream.width = 640
stream.height = 360
stream.pix_fmt = 'yuv420p'

for frame in input_container.decode(video=0):
    # 转换 frame 为 RGB numpy 数组
    img = frame.to_ndarray(format='rgb24')

    # 转灰度
    gray = np.dot(img[..., :3], [0.299, 0.587, 0.114]).astype(np.uint8)

    # 灰度扩展成 3 通道（H.264 不支持单通道）
    gray_3ch = np.stack([gray]*3, axis=-1)

    # 创建新的 PyAV Frame
    new_frame = av.VideoFrame.from_ndarray(gray_3ch, format='rgb24')

    # 编码并写入
    for packet in stream.encode(new_frame):
        output_container.mux(packet)

# 刷新编码器
for packet in stream.encode():
    output_container.mux(packet)

output_container.close()

print("处理完成：", output_path)

⭐关键说明

PyAV 支持 numpy → VideoFrame 的转换，适合 OpenCV、PyTorch 等模型输出。
编码部分通过 stream.encode(frame) 完成。
H.264 不支持灰度，所以需要扩展为 3 通道。

实战 2：实时摄像头读取 + 边缘检测处理（OpenCV + PyAV）

适用于：

工业相机图像实时处理
监控算法推理
嵌入式设备视频流识别（Jetson Nano / Raspberry Pi）

📌 功能

使用 PyAV 读取摄像头 → OpenCV 做 Canny 边缘检测 → 显示。

✔️ 代码示例

import av
import cv2
import numpy as np

# 打开摄像头，索引 0
container = av.open("0", format="v4l2")

for frame in container.decode(video=0):
    img = frame.to_ndarray(format='bgr24')

    # OpenCV 边缘检测
    edge = cv2.Canny(img, 100, 200)

    cv2.imshow("Edge Detection", edge)
    if cv2.waitKey(1) == ord('q'):
        break

⚠️ 提示

某些系统下要明确指定摄像头格式（如 v4l2），否则可能无法解码。

实战 3：提取视频关键帧并保存（基于 I-Frame）

关键帧提取适用于：

视频摘要
视频质量评估
监控报警场景中提取关键画面

📌 功能

扫描视频流，找出 I-Frame（关键帧），并保存为 JPEG 文件。

✔️ 代码示例

import av

container = av.open("input.mp4")

keyframe_index = 0

for frame in container.decode(video=0):
    if frame.key_frame:
        img = frame.to_image()
        img.save(f"keyframe_{keyframe_index}.jpg")
        print("保存关键帧：", keyframe_index)
        keyframe_index += 1

print("关键帧提取完成")

⭐说明

PyAV 天然支持帧类型（I-Frame, P-Frame, B-Frame）
提取关键帧比逐帧处理更快、结果更有代表性

实战 4：将多张图片编码为视频（图像序列转 MP4）

适合：

生成视频幻灯片
图像处理结果合成视频（AI 生成帧合成）
视频去噪、插帧后重新编码

✔️ 代码示例

import av
from PIL import Image

output = av.open("demo_output.mp4", "w")
stream = output.add_stream('h264', rate=25)
stream.width = 640
stream.height = 360
stream.pix_fmt = 'yuv420p'

image_list = ["1.png", "2.png", "3.png"]

for img_path in image_list:
    img = Image.open(img_path).resize((640, 360)).convert("RGB")
    frame = av.VideoFrame.from_image(img)

    for packet in stream.encode(frame):
        output.mux(packet)

# 刷新编码器
for packet in stream.encode():
    output.mux(packet)

output.close()
print("视频合成完成")

实战 5：将模型推理结果写入视频（PyTorch/YOLO/MediaPipe 均可）

你可以把这个用于：

目标检测后的视频保存
手势识别、关键点识别可视化
算法 demo 输出

📌 示例：在视频帧上绘制矩形

import av
import cv2
import numpy as np

input_path = "input.mp4"
output_path = "output_detect.mp4"

container_in = av.open(input_path)
container_out = av.open(output_path, mode='w')

stream = container_out.add_stream('h264', rate=30)
stream.width = 640
stream.height = 360
stream.pix_fmt = 'yuv420p'

for frame in container_in.decode(video=0):
    img = frame.to_ndarray(format='bgr24')

    # 模型推理部分（此处仅画个框举例）
    cv2.rectangle(img, (50, 50), (200, 200), (0, 255, 0), 3)

    new_frame = av.VideoFrame.from_ndarray(img, format='bgr24')

    for packet in stream.encode(new_frame):
        container_out.mux(packet)

# 清空缓存帧
for packet in stream.encode():
    container_out.mux(packet)

container_out.close()

你可以把这里的矩形替换成：

YOLO 的检测框
MediaPipe 的关键点
自己的模型输出

即可形成完整视觉 demo 视频。

📌 总结：PyAV 实战能力概览

功能	说明
视频逐帧读取	高性能，替代 OpenCV VideoCapture
视频写入	支持 H.264、HEVC、VP9、AV1 等
Frame 与 numpy 互相转换	适合深度学习推理
支持实时摄像头	可做流媒体系统
关键帧提取	视频分析常用
图像序列合成视频	AI 生成内容工作流中常见
与 OpenCV、PIL、PyTorch 无缝配合	适合 CV 项目