Fairseq
文章平均质量分 94
「已注销」
长不大的孩子
展开
-
wav2vec2踩坑之旅5:如何制作一个transformers的数据集
wav2vec2踩坑之旅5:如何制作一个transformers的数据集摘要本文记录了制作transformers数据集的主要过程,以thch30中文ASR数据集为例,模仿librispeech的格式,可用于wav2vec2模型的finetune过程。本文主要解决2个核心问题:如何在transformers中自定义数据集?如何使用本地数据集?本文按照官方数据集添加向导踩坑,愿对诸君有所帮助。文章目录wav2vec2踩坑之旅5:如何制作一个transformers的数据集摘要1.制作SLR18原创 2021-03-30 18:40:50 · 2731 阅读 · 7 评论 -
Fairseq的wav2vec2的踩坑之旅4:如何手动将一个Fairseq的wav2vec2模型转换为transformers的模型
摘要:本文尝试将用中文拼音预训练的Fairseq的wav2vec2模型转换为transformers模型(以下简写trms),因为汉语拼音的label数量与英文不同,所以本文需要进行模型转换函数的修改。自己预训练和finetune的模型没有稳定输出,但是应该是label转换的问题,但是对于SOTA的复现党就没有任何问题了文章目录摘要:1.分析transofrmers模型的结构2.使用transformers的工具进行导入2.1 导入工具参数说明2.2 创建对应的tokenizer需要的文件3.测试转换原创 2021-03-27 15:44:31 · 6862 阅读 · 11 评论 -
配置Fairseq的wav2ec采坑日志3:编译安装flashlgiht
编译安装 flashlight最终结论vcpkg版本的安装不适合国内,因为不可访问。所以使用源代码编译版本。文章目录编译安装 flashlight最终结论试验条件尝试1 : 使用build vcpkg是行不通的坑0 : 安装vcpkg尝试2 : 使用源代码安装方式Step1 :下载安装arrayfire1.1 安装 Linux Developer Tools1.2 使用VCPKG安装FlashlightStep2 :直接从源代码编译坑1 : backend这个参数应该传递啥坑2:gtest坑3: G原创 2021-03-22 20:00:29 · 2004 阅读 · 0 评论 -
wav2ec 训练心得
wav2ec 训练心得本文记录了跑Fairseq的wav2ec的主要过程,希望对诸君有用。基本结论代码经过修改是可以跑起来的,这与2020年12月的尝试结果不同。“预训练"这个词具有歧义,Fairseq向导里给的预训练模型是经过finetune的模型而不是原始的audiopretraing的模型,直接使用将导致循环加载,无法使用,这是两次尝试失败的核心原因。大厂的代码质量也是靠不住的。以下是基本过程.文章目录wav2ec 训练心得基本结论1. 预训练例子1.1 数据准备Tips 1:魔改支原创 2021-03-05 20:08:20 · 3110 阅读 · 1 评论 -
配置Fairseq的wav2vec采坑记录2
前面写过一片Fairseq Wav2ec的踩坑记录,但是没有踩完,但是没办法3个月之后继续踩,这次总算跑起来了。1.基础环境Intel® Xeon® Platinum 8163 CPU @ 2.50GHz × 96GeForce RTX 3090 x 2 (这里必须说明以下:3090是导致编译和执行问题的主要背锅的)Ubuntu 20.04Ananconda3Python3.9PyTorch1.8.1 -Nightly版本 (据说只有这个版本可以适用3090)Apex (编译通过但是没原创 2021-03-03 19:54:04 · 6597 阅读 · 27 评论 -
Fairseq学习日记:注定麻烦的旅程
现在开头:Fairseq是一个正在快速迭代的产品,而且是开源的!这不是表扬,这意味着三件事情:1.他没有文档!所有框架代码都没有任何注释,包括函数docstring都没有2.他没有经过有效测试,估计是抢时间吧!即使是官网Readme里的例子也是无法跑起来的!3.他是一个框架,而且是一个非常不Pythonic的框架,充斥着inline/包装器/莫名其妙的语法。虽然这三点决定他真的对不住Facebook的金字招牌,但是作为一个学习者,总要把他运行起来,那么开始这场针对 FaceBOOK派“全原创 2020-11-22 17:37:31 · 6797 阅读 · 7 评论