【求助帖】训练ASR系统，librispeech数据集，loss收敛缓慢，没有训练痕迹。

努力学好专业

于 2024-08-13 22:49:09 发布

阅读量146

点赞数 3

文章标签： python 深度学习语音识别 pytorch

本文链接：https://blog.csdn.net/m0_47720829/article/details/141175770

版权

最近在训练conformer＋RNN的ASR，我把batch size设置成1，使用Adam优化器，使用的是transformer lr 学习率器，warm up step设置成10000，K设置成2。

只使用了train-clean-100 6G大小的数据集中的1G，验证集全部使用dev-clean。训练了150个epoch，输出的文本只有’AND‘一个单词，WER不下降。

尝试做过的改变：

1.增大batch size，增大到8并没有变好。由于显存有限，batch等于16的时候就会OOM。

2.增加epoch，训练到了300个epoch，loss也几乎不下降。

3.只使用1个音频文件，loss会趋近0，WER为7左右。（只有训练，并没有进行验证和测试）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

努力学好专业

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【求助帖】训练ASR系统，librispeech数据集，loss收敛缓慢，没有训练痕迹。

深度学习语音识别
复制链接

扫一扫

PPASR流式与非流式语音识别模型（LibriSpeech数据集）

01-26

该框架使用了深度学习技术，如Transformer、LSTM等，针对LibriSpeech数据集进行了训练和优化。LibriSpeech是一个广泛使用的开源英语语音识别数据集，由公共领域的有声读物转换而来，包含了约1000小时的清晰语音样本...

语音识别测试wav数据集（中文250条英文150条）

06-14

这个数据集的用途主要是为了评估和训练语音识别系统的性能。在AI领域，尤其是深度学习应用中，模型的训练和优化需要大量的数据支持。此数据集包含了两种主要的语言——中文和英文，这使得它能够广泛应用于多语种环境...

参与评论您还未登录，请先登录后发表或查看评论

LibriSpeech数据集--学习笔记

oneself的博客

10-11

2410

LibriSpeech数据集--学习笔记

数据集-语音识别：LibriSpeech ASR corpus

u013250861的博客

10-31

927

公开数据集中最常用的英文语料，其中包含了1000小时的16kHz有声书录音，并且经过切割和整理成每条10秒左右的、经过文本标注的音频文件，非常适合入门使用。数据大小：60 GB。

Ubuntu上Kaldi跑librispeech数据集步骤

cheetah的专栏

03-21

4419

Kaldi跑librispeech步骤步骤分为数据准备跟训练模型 kaldi环境默认是安装好的，这里不详细说明kaldi的安装步骤，这里的实验室在Ubuntu16.04上跑的。一、数据准备数据准备分为两种：手动下载跟脚本下载。 1.手动下载 1.1下载训练数据：从http://www.openslr.org/12/网址下载librispeech数据下载train-clean-100.t...

CCF大数据与计算智能大赛训练赛——图书推荐系统技术报告

程哥哥的一亩三分地

10-21

2449

该赛题为DataFoutain中的一道训练赛题目，赛题任务是依据真实世界中的用户-图书交互记录，利用机器学习相关技术，建立一个精确稳定的图书推荐系统，预测用户可能会进行阅读的书籍。

tensorflow训练自己的声音数据集进行声音分类

rugeweiwu的博客

03-23

1402

** tensorflow训练自己的声音数据集进行声音分类 ** 环境 win10 anaconda3.5 tensorflow 2.0 1.安装anaconda https://pan.baidu.com/s/1XeFxohUN10FPV1QF3E-X5w 密码：i60b 创建虚拟环境 conda create -n tensorflow python=3.7 启动虚拟环境 conda activate tensorflow 4.安装 tensorflow2.0 pip install tensorfl

基于matlab的ASR语音识别算法开发内含数据集和预训练模型.zip

08-03

基于matlab的ASR语音识别算法开发内含数据集和预训练模型.zip

AISHELL-1-sample数据集

10-31

AISHELL-1-sample数据集是专为中文语音识别技术研发设计的一个开源数据集，它在AI和语音处理领域中有着广泛的应用。这个数据集由北京阿里云公司制作，旨在为学术界和工业界提供一个高质量的训练和评估平台，推动中文...

CTW1500语言识别数据集

05-24

CTW1500语言识别数据集是一款专为自然语言处理（NLP）研究和开发设计的资源，尤其适用于语音识别、语音转文本（ASR，Automatic Speech Recognition）以及相关领域的深度学习模型训练。该数据集由CTW（Chinese Text-...

大模型微调工具-torchtune

weixin_40777649的博客

08-08

1004

1.定义2.安装3. 案例。

NVIDIA-CUDA

qq_41081716的博客

08-08

441

CUDA 是一种强大的并行计算平台，它极大地扩展了 GPU 的用途，使其不仅仅局限于图形处理。通过利用 CUDA，开发人员可以编写高效、高性能的并行应用程序，这些应用程序可以用于各种计算密集型任务。如果您正在从事高性能计算或需要加速计算任务的工作，CUDA 是一个非常有用的工具。

Falsk测试与部署（第九阶段）

蜡笔小新星的博客

08-09

640

在本章节中，我们学习了如何使用unittest和pytest进行单元和集成测试，以及如何配置Flask应用，使用WSGI服务器部署，容器化Flask应用并将其部署到各种云服务平台。通过这些步骤，你可以确保你的Flask应用在生产环境中的稳定性和可靠性。希望这些知识能够帮助你在实际项目中更好地实现测试和部署。

《python语言程序设计》2018版第6章第42题Turtle：绘制sin函数，使用程序清单6-14中的函数简化5.52代码

电饭叔

08-10

275

在output06th.py中的代码。

leetcode:1822. 数组元素积的符号(python3解法)

qq_41905051的博客

08-09

387

leetcode:1822. 数组元素积的符号(python3解法)

【最长递增子序列】python刷题记录

m0_73629042的博客

08-08

382

R4-dp。

python：range和xrange的区别

sheji888的专栏

08-09

385

在Python中，range()和xrange()函数在早期的Python版本（Python 2）中扮演着不同的角色，但在Python 3中，xrange()已经被移除，并被range()取代。下面分别解释这两个函数在Python 2中的区别和Python 3中的变化。

【Python知识】m.inplace = inplace 《==》是否执行原地操作

2301_77549977的博客

08-07

146

属性是一个布尔值，用于指示某个操作是否可以以原地（in-place）模式执行。原地操作意味着操作会直接修改输入张量的值，而不是创建一个新的张量来存储结果。这种方式可以减少内存使用，因为它避免了为输出结果分配额外的内存空间。# 如果激活层模块有 inplace 属性，则设置该属性 if hasattr(m, 'inplace'): m.inplace = inplace inplace 属性是什么？，原地属性允许在不增加额外内存开销的情况下应用激活函数。涉及梯度更新时，原地操作需要谨慎使用。

firefly推理和微调qwen