李宏毅2022hw2

最新推荐文章于 2024-05-03 15:43:02 发布

偷懒不学习

最新推荐文章于 2024-05-03 15:43:02 发布

阅读量713

点赞数 1

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/seaern/article/details/125637552

版权

任务介绍：

数据预处理:从原始波形中提取MFCC特征(TAs已经做了!)
分类:使用预先提取的MFCC特征进行帧级音素分类

任务:多级分类
从语音中进行基于框架的音素预测

数据：

由于每一帧只包含25毫秒的语音，因此单个帧不可能代表一个完整的音素
通常，一个音素会跨越几个帧
将相邻的音素连接起来进行训练

每一段是39长度的向量。将相邻的音素连接起来进行训练，然后会给出前后五段的数据，也就是我们有11*39 = 429 维度的一个特征，根据这个特征去做分类。

libriphone/

train_split.txt (train metadata)

train_labels.txt (train labels)

test_split.txt (test metadata)

feat/ （pt文件，张量）

train/

test/

1.修改参数

2.修改网络，增加归一化和dropout

偷懒不学习

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
李宏毅2022hw2

数据预处理:从原始波形中提取MFCC特征(TAs已经做了!)分类:使用预先提取的MFCC特征进行帧级音素分类任务:多级分类从语音中进行基于框架的音素预测数据：由于每一帧只包含25毫秒的语音，因此单个帧不可能代表一个完整的音素通常，一个音素会跨越几个帧将相邻的音素连接起来进行训练每一段是39长度的向量。将相邻的音素连接起来进行训练，然后会给出前后五段的数据，也就是我们有11*39 = 429 维度的一个特征，根据这个特征去做分类。1.修改参数2.修改网络，增加归一化和dropout...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。