python手势视频识别标记

最新推荐文章于 2024-06-15 12:55:58 发布

Matrix_Ceasor

最新推荐文章于 2024-06-15 12:55:58 发布

阅读量703

点赞数

分类专栏：深度学习文章标签：图像识别深度学习 python 人工智能计算机视觉

本文链接：https://blog.csdn.net/qq_42250840/article/details/106744256

版权

该博客介绍了一个基于Python的手势视频识别项目，利用pytorch和googlenet模型实现95%以上的识别准确率。项目包括视频帧分解、模型识别、音频处理和视频合成等步骤，通过bgm.py进行背景音乐的添加和标签位置处理，最终在putlabel.py中对手势图片进行识别并贴上标签。

摘要由CSDN通过智能技术生成

环境

python3.7

pytorch1.1.0
torchvision 0.3.0
cuda 9.0以上
##项目框架
Audio-and-video-demo
- bgm (背景语音播报文件)
- images
  - ffempeg-img
  - rec-img
- model （自训练模型保存）
- video （输入输出视频文件）
- bgm.py
- combination.py
- ffempeg-img-recognition.py
- gesture-recognition.py
- main.py
- putlabel.py

模块

ffempeg-img-recognition.py

将手势视频按帧分解为图片并保存


	def ffmpeg_img_extract(videopath):
   		 container = av.open(videopath)
    
   		 stream = container.streams.video[0]
   		 stream.codec_context.skip_frame = 'NONKEY'
    
   		 for frame in container.decode(stream):
       		 #savepath = 'C:/Users/hp/Desktop/Audio_and_video_processing/Audio_and_video_demo/images/ffmpeg_img/' +'%d.jpg'%frame.index
        	 savepath = 'images/ffmpeg_img/' +'%d.jpg'%frame.index
       	     frame.to_image().save(savepath,quality=80)
 
 	def img_to_video(videopath):
    #转换为每帧

    	container = av.open(videopath)
    
   	    for frame in container.decode(video=0):
        	#savepath = 'C:/Users/hp/Desktop/Audio_and_video_processing/Audio_and_video_demo/images/ffmpeg_img/' +'%d.jpg'%frame.index
        	savepath = 'images/ffmpeg_img/' +'%d.jpg'%frame.index
            frame.to_image().save(savepath)

gesture-recognition.py

利用训练好的模型对手势图像进行识别，并用label_flag矩阵记录标签。这里使用的是googlenet预训练模型对我们的数据集进行训练，采用学习率降低法多次迭代训练，得到的模型对手势图像识别正确率在95%以上。


	def gesture_recognition(filepath):
    fileList = os.listdir(filepath)
    
    count = 0
    for filename in fileList:
        count += 1
     
    #背景音乐标签
    bgm_label = []
    for i in range(count):
        
        filename = filepath+str(i)+'.jpg'
        #图片读取
        input_image = Image.open(filename)
          
        
        device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
        
        
        #导入测试图片
        input_image = Image.open(filename)
        preprocess = transforms.Compose([
            transforms.Resize(256),
            #transforms.CenterCrop(224),
            transforms.RandomRotation(20),
            #transforms.ColorJitter(contrast=3),
            transforms.ToTensor()

最低0.47元/天解锁文章

Matrix_Ceasor

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python手势视频识别标记

环境python3.7pytorch1.1.0torchvision 0.3.0cuda 9.0以上##项目框架Audio-and-video-demobgm (背景语音播报文件)imagesffempeg-imgrec-imgmodel （自训练模型保存）video （输入输出视频文件）bgm.pycombination.pyffempeg-img-recognition.pygesture-recognition.pymain.pyputl
复制链接

扫一扫