【CV with Pytorch】第 9 章：视频分析

Sonhhxg_柒

已于 2023-06-27 17:04:42 修改

阅读量1.5k

点赞数 6

分类专栏：使用 PyTorch 的计算机视觉项目文章标签：计算机视觉 pytorch 人工智能 Powered by 金山文档

于 2023-02-16 15:11:59 首次发布

本文链接：https://blog.csdn.net/sikh_0529/article/details/129023239

版权

使用 PyTorch 的计算机视觉项目专栏收录该内容

10 篇文章 25 订阅

订阅专栏

机器学习之旅从很久以前的结构化数据开始，一直到提取有意义的预测的过程。随着数据的增长，机器学习也开始探索其他数据类型。今天，可以处理的数据类型没有限制。

从结构化数据开始，我们开始分析文本数据。我们开始理解文本并使用文本中的特征进行预测。然后我们也跳到图像。尽管这个过程有时具有挑战性，但由于 GPU 和 TPU 处理能力的进步，事情开始顺利进行。

然后是音频处理。这涉及使用频率处理音频或将音频转换为文本，然后进行预测。

所有这些概念的组合称为视频分析。

那里可用的视频数据量是巨大的。世界每一秒都在创造视频内容。娱乐和体育行业依靠视频运行，安全摄像头正在捕捉每一个动作。如图9-1所示，仅 YouTube 就有超过 20 亿用户。想一想从视频中生成的数据量。随着我们看到更多的数据，就会出现更多的问题，而人工智能将被用来解决这些问题。

图 9-1 YouTube

视频内容分析或视频内容分析，也称为视频分析或视频分析，是自动分析视频以检测和确定时间和空间事件的能力。

问题陈述

在我们考虑问题陈述之前，让我们列出一些可能的视频分析数据源。

YouTube

社交媒体

运动的

娱乐产业

监控摄像头

教学平台

手机录音

此时对视频处理的需求至关重要。由于数据量大，手动审核由各种来源（如监控摄像头和其他录音）创建的视频片段是不可能的。

每个行业都有可以使用视频解决的问题。让我们在这里讨论一些用途。

计算购物中心、零售店等处的人数。

视频中的个人人口统计信息识别，例如年龄和性别

货架补货警报的库存计划

使用运动检测的商店安全和监视

停车场用例

人脸识别

行为检测

人物追踪

人群检测

人数/人数

时间管理

区域管理和分析/边界检测

交通控制系统

安全/监控

运动检测

队列管理

上门监控

车牌自动识别

流量监控

车辆计数

运动分析，如图9-2

图 9-2 运动视频分析

我们从这个列表中挑选了一些用例并将实施它们。我们将使用 PyTorch 实现以下用例。

计算零售店的顾客数量

识别零售店中的热点

使用运动检测管理安全和监视

确定人口统计数据（年龄和性别）

方法

我们将使用视频作为我们算法的输入。该视频基本上有两个组成部分：

视觉效果或系列图像

声音的

我们需要从视频中提取这些子组件来处理它并解决用例。我们只对这个项目的第一个组件感兴趣。一旦我们根据用例提取了一系列图像，我们就可以使用算法或预训练模型。图9-3显示了视频分析的解决方法。

图 9-3 解决办法

最后一部分是图像处理，可以包括与视频分析相关的各种任务。

图像分类：对从视频中提取的图像进行分类。例如，识别视频中人物的性别。

对象检测：检测图像中的对象。例如，检测停车场中的汽车。

对象跟踪：一旦检测到对象，识别对象的移动。

分割：生成边界框以识别图像中的各种对象。

执行

让我们看看如何实现这些用例中的每一个。我们需要先安装克隆库。我们正在使用基于 SFNet 架构的预训练模型。它具有基于编码器-解码器的卷积神经网络和具有注意力的双路径多尺度融合网络。图9-4显示了样本人群和热图。

图 9-4 人群和热图

我们也在使用FaceLib 库对于人脸检测，我们可以尝试预测年龄和性别。对于图像处理和任何其他操作，让我们使用 OpenCV。

# 安装需要的包
!pip install git+https://github.com/sajjjadayobi/FaceLib.git
!git clone https://github.com/Pongpisit-Thanasutives/Variations-of-SFANet-for-Crowd-Counting #only model

# 导入包
import cv2
from PIL import Image
import pandas as pd
import numpy as np
%pylab inline
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import glob
#import torch
import torch
from torchvision import transforms
#import model
import os
os.chdir('/content/Variations-of-SFANet-for-Crowd-Counting')
from models import M_SFANet_UCF_QNRF
#import facelib
from facelib import FaceDetector, AgeGenderEstimator

数据

我们使用了 YouTube 上的几个视频。下载这些视频并将它们保存在本地。

这是来自一家零售店的视频链接。

https://www.youtube.com/watch?v=KMJS66jBtVQ

这是停车场的视频链接。

https://www.youtube.com/watch?v=eE2ME4BtXrk

下载这些视频，然后我们将它们上传到 Google Colab 以进行进一步分析。

将所需视频上传到 Google Colab

下一步，我们需要将视频上传到Google Colab.

# 上传视频
from google.colab import files
# 上传
files.upload()
files.upload()

我们还需要上传一个模型权重文件，后面会用到。从以下链接下载：https://drive.google.com/file/d/1oaXIBVg-dgyqRvEXsYDiJh5GNzP35vO-/view

将此模型的权重文件上传到Colab：

print('Upload model weights')
files.upload()

将视频转换为一系列图像

如前所述，视频分析就是从视频中生成帧。其余步骤与图像处理时相同。

让我们构建一个在输入视频时生成图像的函数。

# 生成图像的函数
def video_to_image(path, folder):
    global exp_fld
    # 导入视频
    vidcap=cv2.VideoCapture(path)
    exp_fld=folder
    # 错误处理
    try:
        if not os.path.exists(exp_fld):
            os.makedirs(exp_fld)
    except OSError:
        print ('Error: Creating directory of data')
    Count = 0
    sec = 0
    frameRate = 1 # secs of the video
    while(True):
        vidcap.set(cv2.CAP_PROP_POS_MSEC,sec*1000)
        hasFrames,image = vidcap.read()
        sec = sec + frameRate
        sec = round(sec, 2)
        # 导出图像
        if hasFrames:
            name='./' + exp_fld +'/frame'+str(Count) + '.jpg'
            cv2.imwrite(name, image)     # 将帧保存为 JPG 文件
            Count +=1
        else:
            break
    return print("Image Exported")

图像提取

现在，让我们使用之前创建的函数为视频生成帧。让我们为两个视频都这样做。

# 设置路径
os.chdir('/content')
# 提取图像并存储第一个视频
video_to_image('HD CCTV Camera video 3MP 4MP iProx CCTV HDCCTVCameras.net retail store.mp4', 'crowd')
# 为停车场视频提取图像
video_to_image('AI Security Camera with IR Night Vision (Bullet IP Camera).mp4', 'movement')

Image Exported

数据准备

现在，让我们运行一些快速的数据准备步骤。与结构化数据相比，在进行图像处理时准备和清理数据更容易。这里的关键步骤是调整图像的大小。原始图像可以是任何大小或像素。但是模型总是在一定的尺寸上进行训练。所以我们需要调整输入图像的大小以匹配模型。

这是调整图像大小的函数。

# 调整图像大小
def img_re_sizing(dnst_mp, image):
    # 规范化
    dnst_mp = 255*dnst_mp/np.max(dnst_mp)
    dnst_mp= dnst_mp[0][0]
    image= image[0]
    # 空图像
    result_img = np.zeros((dnst_mp.shape[0]*2, dnst_mp.shape[1]*2))
    # 迭代每张图片
    for i in range(result_img.shape[0]):
        for j in range(result_img.shape[1]):
            result_img[i][j] = dnst_mp[int(i / 2)][int(j / 2)] / 4
    result_img  = result_img.astype(np.uint8, copy=False)
    #output
    return result_img

现在我们已经完成了视频摄取、图像提取和大小调整，让我们来解决用例。

让我们从计算客户数量和生成热图开始。我们需要统计这个零售店的顾客数量（见图9-5）。

图 9-5 零售店_

商店的收入取决于有多少人光顾。显而易见，人群越多，购买的可能性就越大。这就是商店想要了解有多少人光顾，以便预测销售额的原因。许多决定都是根据这些信息做出的，比如商店的规模、如何计划库存等。

识别零售店中的热点

在商店中放置库存非常重要，这样可以最大限度地提高购买量。我们可以利用商店内的热点来做出决定。我们还可以使用此信息识别趋势产品。我们可以使用热图概念来获取此类信息。它会生成客户花费大部分时间的地点，这有助于确定该地点对产品的需求。图9-6显示了示例热图。

图 9-6 热图

让我们编写一些函数来生成热图并统计人数。以下函数将拍摄图像并生成热图。

# 获取热图的函数
def generate_dstys_map(o, dsty, cc, image_location):
    # 定义fgr_imure
    fgr_im=plt.fgr_imure()
    # 定义 size
    col = 2
    rws = 1
    X = o
    #sum
    add = int(np.sum(dsty))
    dsty = image_re_sizing(dsty, o)
    # 添加原始图像和新生成的热图图像
    for i in range(1, col*rws +1):
        # 生成原始图像
        if i == 1:
            image = X
            fgr_im.add_subplot(rws, col, i)
            # 设置轴
            plt.gca().set_axis_off()
            plt.margins(0,0)
                # 定位器
            plt.gca().xaxis.set_major_locator(plt.NullLocator())
            plt.gca().yaxis.set_major_locator(plt.NullLocator())
                # 调整子图
            plt.subplots_adjust(top = 1, bottom = 0, right = 1, left = 0, hspace = 0, wspace = 0)
                # 显示图像
            plt.imshow(image)
        # 生成 dstys 图像
        if i == 2:
            image = dsty
            fgr_im.add_subplot(rws, col, i)
                # 设置轴
            plt.gca().set_axis_off()
            plt.margins(0,0)
                # 定位器
            plt.gca().xaxis.set_major_locator(plt.NullLocator())
            plt.gca().yaxis.set_major_locator(plt.NullLocator())
                # 调整子图
            plt.subplots_adjust(top = 1, bottom = 0, right = 1, left = 0, hspace = 0, wspace = 0)
                # 添加计数
            plt.text(1, 80, 'M-SegNet* Est: '+str(add)+', Gt:'+str(cc), fontsize=7, weight="bold", color = 'w')
                # 显示图像
            plt.imshow(image)#, cmap=CM.jet)
    #image_nm with location
    image_nm = image_location.split('/')[-1]
    image_nm = image_nm.replace('.jpg', '_heatpmap.png')
    #saving the image
    plt.savefgr_im(image_location.split(image_nm)[0]+'seg_'+image_nm, transparent=True, bbox_inches='tight', pad_inches=0.0, dpi=200)

以下函数将图像作为输入并计算人数。它还会触发我们刚才创建的热图功能。最后，它输出人数、图像密度和密度图。

# 统计人数
def get_count_people(image):
    # 简单的预处理。
    trans = transforms.Compose([transforms.ToTensor(),
                                transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
                               ])
    # 具有高度和宽度的样本图像
    img = Image.open(image).convert('RGB')
    height, width = img.size[1], img.size[0]
    height = round(height / 16) * 16
    width = round(width / 16) * 16
    # 重新调整图像大小
    img_den = cv2.resize(np.array(img), (width,height), cv2.INTER_CUBIC)
    # 转换
    img = trans(Image.fromarray(img_den))[None, :]
    # 让我们定义模型
    model = M_SFANet_UCF_QNRF.Model()
    # 加载模型
    model.load_state_dict(torch.load('/content/best_M-SFANet__UCF_QNRF.pth',
 map_location = torch.device('cpu')))
    #评估模型
    model.eval()
    dnst_mp = model(img)
    # 最终计数
    count = torch.sum(dnst_mp).item()
    #retun count, density and map
    return count,img_den,dnst_mp

至此，我们已经创建了计算和生成热图的函数。接下来，让我们对从视频中提取的图像使用这些函数。

在此之前，让我们导入图像。

导入图像

# 获取路径中的所有图片
image_location = []
path_sets = ['/content/crowd']
# 加载所有图片
for path in path_sets:
    for img_path in glob.glob(os.path.join(path, '*.jpg')):
        image_location.append(img_path)
image_location[:3]

['/content/crowd/frame91.jpg',

'/content/crowd/frame12.jpg',

'/content/crowd/frame26.jpg']

获取人群计数

让我们遍历我们通过之前创建的函数导入的每个图像。最后，我们附加计数和图像 ID 以创建将充当输出的数据框。

# 通过图像获取人数
# 定义空列表
list_df = []
# 循环遍历每张图片
for i in image_location :
    count, img_den, dnst_mp = get_count_people(i)
    generate_dens_map(img_den, dnst_mp.cpu().detach().numpy(), 0, i)
    list_df = list_df + [[i,count]]
# 创建带有图像ID和计数的数据框
df = pd.DataFrame(list_df,columns=['image','count'])
# 排序并显示
df.sort_values(['image']).head()

图9-7a显示了模型的输出。它给出了每一帧的客户数量。这让我们了解每天有多少客户来访。让我们对这个预测做一些基本的统计。

Df.describe()

图 9-7a 输出

import seaborn as sns
sns.histplot(data=df['count'])

正如我们从图9-7b和9-7c中可以观察到的那样，商店中任何时候平均有 15 名顾客。

图 9-7b 输出

图 9-7c 输出

让我们看一下同时生成的一些热图。图9-8和9-9显示了给定时间实例的热图。左侧是原始图像，右侧是热图。白色和黄色块表示该特定区域的客户密度。使用这些信息，我们可以轻松识别商店中的热点。

图 9-8 原始图像和热图

图 9-9 原始图像和热图

这是我们看到计数和密度图的一个例子。在下一个用例中，让我们看看如何使用相同的概念执行安全和监视。

安全和监控

在本世纪，安全已成为一个大问题。视频监控已经存在很长时间了，但是它的工作方式正在发生变化。有很大的自动化空间。有了人工智能，这正在成为现实。见图9-10。

图 9-10 人工监控

我们可以通过使用视频处理检测移动的人来分析限制或敏感区域是否有任何移动。这样，现场人员就不必 7 天 24 小时不间断地查看安全录像。如果有任何动静，系统会向负责的安全人员发出警报。

可以训练模型来预测不良事件。使用此类软件持续监控事件将节省大量人工时间并降低安全风险。

让我们看看我们上传的第二个视频并检测其中的运动。

# 获取路径中的所有图片
image_location = []
path_sets = ['/content/movement']
# loading 停车场视频的所有图像
for path in path_sets:
    for img_path in glob.glob(os.path.join(path, '*.jpg')):
        image_location.append(img_path)
image_location[:3]
# 通过图像获取人数
list_df = []

现在所有图像都已加载，下一步是遍历每张图像，看看禁区内是否有人。

让我们在名为movement的数据框的新列中捕捉人类的存在。

#checking if there is any movement for each frame in video
for i in image_location :
    count, img_den, dnst_mp = get_count_people(i)
    generate_dens_map(img_den, dnst_mp.cpu().detach().numpy(), 0, i)
    list_df = list_df + [[i,count]]
#saving the data into dataframe
detected_df = pd.DataFrame(list_df,columns=['image','count'])
detected_df['movement'] = np.where(detected_df['count'] > 3 ,'yes','no')
detected_df.filter(items = [45,56,53], axis=0)

#检查视频中的每一帧是否有任何移动

对于我在 image_location 中：

计数，img_den，dnst_mp = get_count_people(i)

generate_dens_map(img_den, dnst_mp.cpu().detach().numpy(), 0, i)

list_df = list_df + [[i,count]]

#将数据保存到dataframe中

detected_df = pd.DataFrame(list_df,columns=['image','count'])

detected_df['movement'] = np.where(detected_df['count'] > 3 ,'yes','no')

detected_df.filter（项目= [45,56,53]，轴= 0）

图9-11显示了输出。正如我们所观察到的，frame33在运动列中报告是，这意味着在特定的那一秒有人在场。