GRID唇语数据集下载,python自动下载代码

介绍:

        GRID唇语数据集是一个广泛用于唇读和多模态语音识别研究的音视频数据集。它由谢菲尔德大学(University of Sheffield)提供,包含34位说话者(33名男性和1名女性)的视频和对应的音频以及文本对齐标签。每位说话者录制了约1000个句子的视频,数据集的主要用途是唇语识别、音视频语音增强和多模态学习等领域。

下载相关库:

                pip install requests tqdm

注:os 是 Python 的标准库,它自带在所有 Python 解释器中,无需额外安装


数据集下载后的文件结构:

注:我只下载了视频数据和文本内容数据

./GRID_Dataset/
├── s1/
│   ├── video/
│   │   ├── s1.mpg_6000.part1.tar
│   │   └── s1.mpg_6000.part2.tar
│   └── align/
│       └── s1.tar
├── s2/
│   ├── video/
│   │   ├── s2.mpg_6000.part1.tar
│   │   └── s2.mpg_6000.part2.tar
│   └── align/
│       └── s2.tar
├── s3/
│   ├── video/
│   │   ├── s3.mpg_6000.part1.tar
│   │   └── s3.mpg_6000.part2.tar
│   └── align/
│       └── s3.tar
│   ...
├── s34/
│   ├── video/
│   │   ├── s34.mpg_6000.part1.tar
│   │   └── s34.mpg_6000.part2.tar
│   └── align/
│       └── s34.tar


代码:

注:由于GRID唇语数据集官网上对应的21号没有视频数据集,我就跳过了

import os
import requests
from tqdm import tqdm

# 下载GRID_Dataset数据集的URL
BASE_URL = "https://spandh.dcs.shef.ac.uk/gridcorpus/"

# 保存文件的本地路径
SAVE_DIR = "./GRID_Dataset/"

# 检查目录是否存在,如果不存在,则创建该目录
if not os.path.exists(SAVE_DIR):
    os.makedirs(SAVE_DIR)


def download_file(url, save_path_time):
    """下载文件并显示进度条"""
    # 检查文件是否已经存在
    if os.path.exists(save_path):
        print(f"{os.path.basename(save_path)} 已存在,跳过下载。")
        return
    try:
        response = requests.get(url, stream=True)
        response.raise_for_status()  # 检查请求是否成功
        total_size = int(response.headers.get('content-length', 0))

        with open(save_path_time, 'wb') as file, tqdm(
                desc=os.path.basename(save_path_time),
                total=total_size,
                unit='iB',
                unit_scale=True,
                unit_divisor=1024,
        ) as bar:
            for data in response.iter_content(chunk_size=1024):
                bar.update(len(data))
                file.write(data)

    except requests.exceptions.RequestException as e:
        print(f"下载 {url} 时出错: {e}")


for i in range(1, 35):
    if i == 21:
        continue  # 跳过第21个说话者

    video1 = f"s{i}/video/s{i}.mpg_6000.part{i}.tar"
    video2 = f"s{i}/video/s{i}.mpg_6000.part2.tar"
    txt_label = f"s{i}/align/s{i}.tar"

    # 下载的文件路径
    file_paths = [BASE_URL + video1, BASE_URL + video2, BASE_URL + txt_label]
    # 保存文件的路径
    save_paths = [SAVE_DIR + video1, SAVE_DIR + video2, SAVE_DIR + txt_label]

    # 开始批量下载
    for file_path, save_path in zip(file_paths, save_paths):
        # 创建保存文件的目录(如果不存在)
        os.makedirs(os.path.dirname(save_path), exist_ok=True)
        # 下载文件
        download_file(file_path, save_path)

    print(f"{i}号文件下载完成!")

运行效果:

唇语识别的代码需要综合运用图像处理、特征提取、机器学习和深度学习等多个方面的知识和技术。这里提供一个简单的唇语识别代码示例,供参考: ``` import cv2 import dlib import numpy as np import tensorflow as tf # 加载唇语识别模型 model = tf.keras.models.load_model('lip_reading_model.h5') # 提取唇部特征 def extract_lip_features(frame, detector, predictor): gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY) rects = detector(gray, 0) for rect in rects: landmarks = predictor(gray, rect) points = np.zeros((68, 2), dtype=np.int) for i in range(68): points[i] = (landmarks.part(i).x, landmarks.part(i).y) mouth_points = points[48:68] hull = cv2.convexHull(mouth_points) features = np.zeros((40, 1)) for i in range(40): features[i] = hull[i + 4][0][1] - hull[i][0][1] return features # 实时唇语识别 cap = cv2.VideoCapture(0) detector = dlib.get_frontal_face_detector() predictor = dlib.shape_predictor('shape_predictor_68_face_landmarks.dat') while True: ret, frame = cap.read() if not ret: break features = extract_lip_features(frame, detector, predictor) if features is not None: features = np.array(features).astype(np.float32) features = np.expand_dims(features, axis=0) result = model.predict(features) label = np.argmax(result) cv2.putText(frame, 'Lip Reading: ' + str(label), (30, 30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 0, 255), 2, cv2.LINE_AA) cv2.imshow('frame', frame) if cv2.waitKey(1) == ord('q'): break cap.release() cv2.destroyAllWindows() ``` 这是一个简单的实时唇语识别代码示例,其中使用了dlib库提取唇部特征,使用tensorflow库加载训练好的模型进行识别。需要注意的是,这只是一个简单的示例,具体的实现可能需要根据实际情况进行修改和优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值