Deep Lip Reading 项目教程

晏彤钰Mighty

于 2024-09-04 07:30:40 发布

阅读量715

点赞数 13

本文链接：https://blog.csdn.net/gitblog_01181/article/details/141879734

版权

Deep Lip Reading 项目教程

deep_lip_readingCode and models for evaluating a state-of-the-art lip reading network项目地址:https://gitcode.com/gh_mirrors/de/deep_lip_reading

1、项目介绍

Deep Lip Reading 是一个用于唇语识别的开源项目，旨在通过视觉信息识别口语内容。该项目基于 Transformer 模型，提供了三种不同的架构：循环模型（LSTM）、全卷积模型和 Transformer 模型。这些模型在 BBC-Oxford Lip Reading Sentences 2 (LRS2) 基准数据集上取得了显著的性能提升。

2、项目快速启动

环境准备

确保你已经安装了以下依赖：

Python 3.6+
PyTorch 1.0+
CUDA 10.0+

克隆项目

git clone https://github.com/afourast/deep_lip_reading.git
cd deep_lip_reading

下载预训练模型

sh download_models.sh

运行示例

import torch
from main import LipReadingModel

# 加载预训练模型
model = LipReadingModel()
model.load_state_dict(torch.load('path_to_pretrained_model.pth'))
model.eval()

# 示例输入
input_data = torch.rand(1, 3, 224, 224)  # 示例输入数据
with torch.no_grad():
    output = model(input_data)
print(output)