MediaPipe 集成人脸识别,人体姿态评估,人手检测等模型

一款多媒体机器学习应用的成败除了依赖于模型本身的好坏,还取决于设备资源的有效调配、多个输入流之间的高效同步、跨平台部署上的便捷程度、以及应用搭建的快速与否。

基于这些需求,除了上述的特性,MediaPipe 还支持 TensorFlow 和 TF Lite 的推理引擎(Inference Engine),任何 TensorFlow 和 TF Lite 的模型都可以在 MediaPipe 上使用。同时,在移动端和嵌入式平台,MediaPipe 也支持设备本身的 GPU 加速。

MediaPipe 主要概念

MediaPipe 的核心框架由 C++ 实现,并提供 Java 以及 Objective C 等语言的支持。MediaPipe 的主要概念包括数据包(Packet)、数据流(Stream)、计算单元(Calculator)、图(Graph)以及子图(Subgraph)。数据包是最基础的数据单位,一个数据包代表了在某一特定时间节点的数据,例如一帧图像或一小段音频信号;数据流是由按时间顺序升序排列的多个数据包组成,一个数据流的某一特定时间戳(Timestamp)只允许至多一个数据包的存在;而数据流则是在多个计算单元构成的图中流动。MediaPipe 图是有向的——数据包从数据源(Source Calculator或者 Graph Input Stream)流入图直至在汇聚结点(Sink Calculator 或者 Graph Output Stream) 离开。

 

 模型的图片代码检测import cv2

import mediapipe as mp
mp_drawing = mp.solutions.drawing_utils
mp_holistic = mp.solutions.holistic

file = '4.jpg'
holistic = mp_holistic.Holistic(static_image_mode=True)

image = cv2.imread(file)
image_hight, image_width, _ = image.shape
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
results = holistic.process(image)

首先,我们导入需要的第三方库,并配置一下需要画图的点的尺寸,线的尺寸以及颜色等,这些信息都可以自行修改,这里我们直接引用官方的配置进行设计(mp.solutions.drawing_utils函数)

然后定义一个holistic检测模型函数。

mp_holistic = mp.solutions.holistic

file = '4.jpg'
holistic = mp_holistic.Holistic(static_image_mode=True)

然后使用我们前期介绍的opencv的相关知识从系统中读取我们需要检测的图片,并获取图片的尺寸。

image = cv2.imread(file)
image_hight, image_width, _ = image.shape

由于OpenCV默认的颜色空间是BGR,但是一般我们说的颜色空间为RGB,这里mediapipe便修改了颜色空间。

然后使用我们前面建立的holistic检测模型,对图片进行检测即可。

image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
results = holistic.process(image)

模型检测完成后的结果保存在results里面,我们需要访问此结果,并把检测到的人脸,人手,以及姿态评估的数据点画在原始检测的图片上,以便查看。

if results.pose_landmarks:
print(
f'Nose coordinates: ('
f'{results.pose_landmarks.landmark[mp_holistic.PoseLandmark.NOSE].x * image_width}, '
f'{results.pose_landmarks.landmark[mp_holistic.PoseLandmark.NOSE].y * image_hight})'
)
annotated_image = image.copy()
mp_drawing.draw_landmarks(
annotated_image, results.face_landmarks, mp_holistic.FACE_CONNECTIONS)
mp_drawing.draw_landmarks(
annotated_image, results.left_hand_landmarks, mp_holistic.HAND_CONNECTIONS)
mp_drawing.draw_landmarks(
annotated_image, results.right_hand_landmarks, mp_holistic.HAND_CONNECTIONS)
mp_drawing.draw_landmarks(
annotated_image, results.pose_landmarks, mp_holistic.POSE_CONNECTIONS)

这里我们打印了图片检测的结果,并分别画出人脸检测模型数据,人左右手的检测数据,以及人体姿态检测数据。

#cv2.imshow('annotated_image',annotated_image)
cv2.imwrite('4.png', annotated_image)
cv2.waitKey(0)
holistic.close()

画图完成后,我们可以显示图片方便查看,也可以直接使用OpenCV的imwrite 函数进行结果图片的保存,最后只需要close holistic检测模型,这里在检测多人的时候出现了问题,只是检测了单人,我们后期研究。

当然,我们也可以直接在视频里面进行Mediapipe的模型检测。

import cv2
import time
import mediapipe as mp
mp_drawing = mp.solutions.drawing_utils
mp_holistic = mp.solutions.holistic

holistic = mp_holistic.Holistic(
min_detection_confidence=0.5, min_tracking_confidence=0.5)

 首先跟图片检测一致,我们建立一个holistic检测模型,然后便可以打开摄像头进行模型的检测。

cap = cv2.VideoCapture(0)
time.sleep(2)
while cap.isOpened():
success, image = cap.read()
if not success:
print("Ignoring empty camera frame.")
continue
image = cv2.cvtColor(cv2.flip(image, 1), cv2.COLOR_BGR2RGB)
image.flags.writeable = False
results = holistic.process(image)

首先我们打开默认摄像头,并从摄像头中获取检测的实时图片。

cap = cv2.VideoCapture(0)
while cap.isOpened():
success, image = cap.read()

检测到图片后,我们便可以直接使用图片检测的步骤,进行模型的检测。

image = cv2.cvtColor(cv2.flip(image, 1), cv2.COLOR_BGR2RGB)
image.flags.writeable = False
results = holistic.process(image)

这里我们使用到了cv2.flip(image, 1)图片翻转函数来增强数据图片,由于我们摄像头中的影像跟我们是镜像关系

cv2.flip(image, 1)

使用此函数便可以镜像我们的图片影像,最后把图片赋值给holistic模型进行检测。

image.flags.writeable = True
image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)
mp_drawing.draw_landmarks(
image, results.face_landmarks, mp_holistic.FACE_CONNECTIONS)
mp_drawing.draw_landmarks(
image, results.left_hand_landmarks, mp_holistic.HAND_CONNECTIONS)
mp_drawing.draw_landmarks(
image, results.right_hand_landmarks, mp_holistic.HAND_CONNECTIONS)
mp_drawing.draw_landmarks(
image, results.pose_landmarks, mp_holistic.POSE_CONNECTIONS)
cv2.imshow('MediaPipe Holistic', image)
if cv2.waitKey(5) & 0xFF == ord('q'):
break
holistic.close()
cap.release()

检测完成后,我们便可以把数据实时进行绘制,以便在视频中实时进行结果的查看。

视频检测

这里由于默认设置,线条与点的尺寸不太合适,我们后期慢慢优化。

  • 23
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
计算机视觉通常是指计算机通过控制和应用传感器等设备对周围的环境进行获取的过程,然后对获取的视觉信息进行后期加工,包括表示、压缩、分析、处理、储存等,进而实现人类视觉所具有的“看”的功能。近年来计算机技术、光电技术和自动化技术的飞速发展,促成了计算机视觉系统的出现,同时随着人类生产生活需求的不断提高,视觉化、智能化的解决方案也越来越广泛的应用于工业生产、医疗和军事等领域,计算机视觉技术已经成为各国研究者关注和研究的热点。对计算机视觉系统的研究无论是在理论研究还是实际应用方面都有巨大的价值和意义。 基于图像的人体检测跟踪和人脸识别是当今计算机视觉和模式识别领域的热点研究问题,它在图像处理、智能监控、智能汽车等领域有着广泛的应用前景。本文针对人体检测跟踪和人脸识别中的一些关键问题进行研究,并取得了一定的进展,具体有如下四个方面:在人体检测方面,图像中复杂背景的变化对人体检测产生了负面的影响,比如产生空洞或者噪声,针对此类问题本文提出了基于二次连通域处理的人体检测方法,算法采用三帧差法提取运动目标,在得到二值图像后,运用数学形态学方法对二值图像进行膨胀腐蚀处理,接着利用四方向连接法和连通域三次扫描标记法去除空洞并连接断开的区域,最后利用HOG特征训练分类器来识别运动目标是否是人体。与传统方法不同的是,本文采用的四方向连接和连通域三次扫描标记法对于运动目标存在的空洞弥补效果更好,可以更加准确的连接断开区域,该方法对运动物体所在的环境没有约束,计算量较小,准确性高。实验结果表明,该方法是一种对于背景有一定鲁棒性的人体检测方法。 在人体跟踪方面,经典的Meanshift算法被广泛的用于计算机视觉和模式识别领域,但是当背景扰动的时候会使跟踪的准确性降低,针对此类问题本文提出了基于改进Meanshift的人体跟踪方法,算法通过判别跟踪区域是背景区域或前景区域来设置权重系数,进而实现定位更加准确的运动人体跟踪。与现有的方法相比,该方法减少了背景区域的计算量,同时将跟踪区域精确到运动人体,结合卡尔曼滤波器来预测运动人体下一步的方向,使得跟踪效果更好。实验结果表明,改进的方法相比传统Meanshift算法在准确度上要更加出色. 在光照预处理方面,由于光照对于人脸识别有重要的影响,比如高光、低光、单侧光等都会导致人脸识别率降低、误识率升高等一系列问题,所以本文提出了一种改进的高斯差分滤波光照预处理方法,通过改变高斯差分滤波器的水平方向和垂直方向的参

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值