李宏毅机器学习作业2——音位分类预测

目录

数据集

导包

辅助函数

设定种子

数据预处理

数据集加载

定义模型

训练函数

读取数据集和训练

读取数据集

训练

删除内存中的数据,节省空间

预测

预测函数

进行预测

解答

hidden_layers=7,hidden_dim=256

hidden_layers=12,hidden_dim=512

讨论

更宽还是更深

学习率的影响

batch size影响


数据集

音位分类预测(Phoneme classification)通过语音数据,预测音位。音位(phoneme),是人类某一种语言中能够区别意义的最小语音单位,是音位学分析的基础概念。每种语言都有一套自己的音位系统。

一帧frame设定为长25ms的音段,每次滑动10ms截得一个frame。每个frame经过MFCC
处理,变成长度为39的向量。对于每个frame向量,数据集都提供了标签。标签有41类, 每个类代表一个phoneme 

整个训练集是train-clean-100数据集的子集(LibriSpeech),总共有2644158个frame,经过预处理,这些frame被整合进了4268个pt文件

比如,使用作业代码中的load_feat函数,将19-198-0008.pt读入后得到一个tensor变量,它的形状是[284, 39],在train_labels.txt文件中找到19-198-0008这一行,共包含284个数字标签。

同理,测试集总共有646268个frame,被整合成1078个pt文件

地址:ML2022Spring-hw2 | Kaggle

导包

import numpy as np
import os
import random
import pandas as pd
import torch
from tqdm import tqdm
import torch
from torch.utils.data import Dataset
from torch.utils.data import 
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值