基于深度学习cnn的手势识别系统 对于多种手势(数字以及ok等)的识别

基于深度学习的手势识别系统
以下文字及代码仅供参考,同学


在这里插入图片描述

基础
模型:自定义cnn
:Pycharm+Anaconda
环境:python=3.9 opencv_python PyQt5
在这里插入图片描述
建立功能。

①选择图片识别手势,可选择单个或多个图片
②选择视频识别手势。
③摄像头检测识别手势
在这里插入图片描述
基于深度学习的手势识别系统的详细实现方案。该系统使用自定义 CNN 模型(可改进),并支持通过图片、视频、摄像头进行实时手势识别。系统会显示手势的识别结果


项目结构

Gesture_Recognition/
├── main.py                     # 主程序入口
├── ui_main.py                  # PyQt5 UI 界面逻辑代码
├── ui_main.ui                  # PyQt5 UI 设计文件
├── resources.qrc               # 图标资源文件
├── resources_rc.py             # 编译后的图标资源文件
├── models/                     # 存放预训练模型和权重
│   ├── custom_cnn.pth          # 自定义 CNN 预训练权重
├── utils/                      # 工具函数
│   ├── gesture_utils.py        # 手势识别工具函数
│   ├── video_utils.py          # 视频处理工具函数
├── data/                       # 测试数据
│   ├── images/                 # 测试图片
│   ├── videos/                 # 测试视频
├── requirements.txt            # Python 依赖包列表
└── README.md                   # 项目说明文档

1. 安装依赖

requirements.txt 中列出所需的依赖库:

opencv-python==4.7.0.72
PyQt5==5.15.9
torch==1.13.1
torchvision==0.14.1
numpy==1.23.5

安装依赖:

pip install -r requirements.txt

2. 数据集与模型

数据集

使用公开的手势数据集(如 ASL AlphabetMediapipe Hand Pose)进行模型训练。标注类别包括以下手势:

  • 数字:0-9
  • 特殊手势:‘ok’, ‘thumbs_up’, ‘peace’
模型

使用自定义 CNN 模型,加载预训练权重。模型输出为上述手势类别。


3. 核心代码

gesture_utils.py
import cv2
import torch
import torchvision.transforms as transforms
from PIL import Image

# 加载预训练模型
def load_model(model_path, num_classes=12):
    model = torch.nn.Sequential(
        torch.nn.Conv2d(3, 32, kernel_size=3, stride=1, padding=1),
        torch.nn.ReLU(),
        torch.nn.MaxPool2d(kernel_size=2, stride=2),
        torch.nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1),
        torch.nn.ReLU(),
        torch.nn.MaxPool2d(kernel_size=2, stride=2),
        torch.nn.Flatten(),
        torch.nn.Linear(64 * 56 * 56, 128),
        torch.nn.ReLU(),
        torch.nn.Linear(128, num_classes)
    )
    model.load_state_dict(torch.load(model_path))
    model.eval()
    return model

# 图像预处理
def preprocess_image(image):
    transform = transforms.Compose([
        transforms.Resize((224, 224)),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
    ])
    image = Image.fromarray(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))
    return transform(image).unsqueeze(0)

# 推理函数
def predict_gesture(model, image):
    with torch.no_grad():
        inputs = preprocess_image(image)
        outputs = model(inputs)
        _, predicted = torch.max(outputs, 1)
        return predicted.item()

# 手势类别映射
GESTURE_LABELS = [
    '0', '1', '2', '3', '4', '5', '6', '7', '8', '9',
    'ok', 'thumbs_up'
]

video_utils.py
import cv2

# 处理视频帧
def process_video_frame(model, frame):
    gesture_id = predict_gesture(model, frame)
    gesture_label = GESTURE_LABELS[gesture_id]
    return gesture_label

# 实时摄像头检测
def detect_from_camera(model):
    cap = cv2.VideoCapture(0)
    while True:
        ret, frame = cap.read()
        if not ret:
            break

        gesture_label = process_video_frame(model, frame)
        display_frame(frame, gesture_label)

        if cv2.waitKey(1) & 0xFF == ord('q'):
            break

    cap.release()
    cv2.destroyAllWindows()

# 显示结果
def display_frame(frame, gesture_label):
    cv2.putText(frame, gesture_label, (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)
    cv2.imshow("Gesture Recognition", frame)

ui_main.py
from PyQt5.QtWidgets import QMainWindow, QFileDialog, QMessageBox
from PyQt5.QtGui import QImage, QPixmap
from ui_main import Ui_MainWindow
import cv2
from gesture_utils import load_model, predict_gesture, GESTURE_LABELS
from video_utils import detect_from_camera

class MainWindow(QMainWindow, Ui_MainWindow):
    def __init__(self):
        super(MainWindow, self).__init__()
        self.setupUi(self)
        self.model = load_model("models/custom_cnn.pth")

        # 连接按钮事件
        self.btn_image.clicked.connect(self.select_image)
        self.btn_video.clicked.connect(self.select_video)
        self.btn_camera.clicked.connect(self.start_camera)

    def select_image(self):
        file_paths, _ = QFileDialog.getOpenFileNames(self, "选择图片", "", "Image Files (*.jpg *.jpeg *.png)")
        for file_path in file_paths:
            image = cv2.imread(file_path)
            gesture_label = GESTURE_LABELS[predict_gesture(self.model, image)]
            self.display_image(image, gesture_label)

    def select_video(self):
        file_path, _ = QFileDialog.getOpenFileName(self, "选择视频", "", "Video Files (*.mp4 *.avi)")
        if file_path:
            cap = cv2.VideoCapture(file_path)
            while True:
                ret, frame = cap.read()
                if not ret:
                    break
                gesture_label = GESTURE_LABELS[predict_gesture(self.model, frame)]
                self.display_image(frame, gesture_label)
                if cv2.waitKey(30) & 0xFF == ord('q'):
                    break
            cap.release()
            cv2.destroyAllWindows()

    def start_camera(self):
        detect_from_camera(self.model)

    def display_image(self, image, gesture_label):
        rgb_image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
        h, w, ch = rgb_image.shape
        bytes_per_line = ch * w
        q_img = QImage(rgb_image.data, w, h, bytes_per_line, QImage.Format_RGB888)
        self.label_image.setPixmap(QPixmap.fromImage(q_img))

4. PyQt5 UI 文件

ui_main.ui

设计一个简单的 UI 界面,包含以下控件:

  • 三个按钮:选择图片、选择视频、启动摄像头。
  • 一个标签用于显示图像。

使用 Qt Designer 设计界面后,保存为 ui_main.ui


5. 主程序入口

main.py
import sys
from PyQt5.QtWidgets import QApplication
from ui_main import MainWindow

if __name__ == "__main__":
    app = QApplication(sys.argv)
    window = MainWindow()
    window.show()
    sys.exit(app.exec_())

6. 测试与运行

  1. 准备测试数据
    data/imagesdata/videos 文件夹中放置测试图片和视频。

  2. 运行程序

    python main.py
    
  3. 功能验证

    • 选择图片或视频,观察是否正确识别手势。
    • 启动摄像头,实时检测手势。

总结

基于深度学习的手势识别系统,支持图片、视频、摄像头三种输入方式。系统能够快速识别多种手势,并具有较高的检测精度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值