机器人与计算机视觉实战系列（4）：基于帧间差异的运动物体检测以及相机运动状态估计

最新推荐文章于 2025-05-04 14:17:57 发布

原创

最新推荐文章于 2025-05-04 14:17:57 发布 · 2k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #机器人 #opencv

机器人与计算机视觉实战系列（4）：基于帧间差异的运动物体检测以及相机运动状态估计

基本思想以及核心步骤
优缺点
实战代码
- 检测运动物体的位置和轮廓
- 实现基于前后图像帧之间的差异估计相机运动状态的python opencv的代码实例
根据旋转矩阵和平移向量，判断相机是向前、向后、向左、向右

这是机器人与计算机视觉实战系列的第4篇，将介绍如何基于前后图像帧之间的差异进行运动物体检测和相机运动状态的估计。这是一种简单而有效的方法，可以用于自动驾驶、无人机、视频监控等场景中，提取出图像中的动态信息，并判断相机是否处于静止、平移或旋转状态。
运动物体检测例子

基本思想以及核心步骤

运动物体检测和相机运动状态估计的基本思想是，利用前后两帧图像之间的光流（optical flow）来计算每个像素点的运动向量，然后根据运动向量的大小和方向来划分出静态区域和动态区域，以及相机的运动模式。具体来说，有以下几个步骤：

计算光流。光流是指图像中每个像素点在时间上的位移，可以用一些经典的算法来求解，如Lucas-Kanade法、Horn-Schunck法等。这里我们使用OpenCV提供的函数cv2.calcOpticalFlowFarneback()来计算稠密光流，得到每个像素点的水平和垂直方向上的运动量。
计算运动向量。运动向量是指每个像素点的运动量在水平和垂直方向上的分量，可以用公式v = (u^2 + v²⁾0.5来计算，其中u和v分别是水平和垂直方向上的运动量。运动向量反映了每个像素点的运动速度，越大表示越快。
划分静态区域和动态区域。静态区域是指图像中没有发生明显变化的部分，如背景、地面等；动态区域是指图像中有明显变化的部分，如行人、车辆等。我们可以用一个阈值T来判断每个像素点是否属于静态区域或动态区域，即如果v < T，则为静态区域，否则为动态区域。阈值T可以根据实际情况调整，一般取一个较小的值，如5或10。
估计相机运动状态。相机运动状态是指相机在空间中的移动方式，可以分为三种：静止、平移或旋转。我们可以用以下方法来判断相机的运动状态：

如果所有像素点都属于静态区域，则相机处于静止状态；
如果所有像素点都属于动态区域，则相机处于平移状态；
如果部分像素点属于静态区域，部分像素点属于动态区域，则相机处于旋转状态。

优缺点

这种方法的优点是简单易实现，不需要复杂的模型或训练数据；缺点是对光流计算的精度要求较高，容易受到噪声、遮挡、光照变化等因素的影响。

实战代码

检测运动物体的位置和轮廓

# python opencv实现基于前后图像帧之间的差异进行运动物体检测
# 首先，导入所需的模块，包括opencv和numpy
import cv2
import numpy as np

# 然后，创建一个视频捕获对象，参数为0表示使用默认的摄像头，也可以用视频文件的路径替换
camera = cv2.VideoCapture(0)

# 检查摄像头是否成功打开，如果失败则退出程序
if not camera.isOpened():
    print("摄像头未打开")
    exit()

# 获取视频的宽度和高度，并打印出来
width = int(camera.get(cv2.CAP_PROP_FRAME_WIDTH))
height = int(camera.get(cv2.CAP_PROP_FRAME_HEIGHT))
print("视频宽度：", width)
print("视频高度：", height)

# 创建一个结构元素，用于形态学操作，这里使用椭圆形状，大小为9*4
es = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (9, 4))

# 定义一个变量，用于存储背景图像，初始为None
background = None

# 循环读取视频帧
while True:
    # 从摄像头获取一帧图像，返回值有两个，第一个是布尔值，表示是否成功读取，第二个是图像矩阵
    ret, frame = camera