自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 pytorch 加载大数据集 内存不够 的处理方式

文章用于记录一下本人对于较大数据集加载的问题的一些解决办法和思考。(比较口水话)我之前训练某个特定任务,习惯于把数据提前预处理为dataset保存起来【参见这里】,然后每次训练的时候直接加载这个文件。我这样做的目的是,方便调代码,使用很小量的数据先把代码调通,当出现一些小问题时不至于数据处理很久。但是最近在使用自己的一些语料微调一个语言模型, 语料纯文本大小大概在8G左右,使用预处理脚本CPU满速处理后使用torch.save()保存成二进制文件,大概也8G左右。这个时候问题来了,我使用了8张卡跑代码

2021-04-14 20:42:34 13904 15

原创 unilm遇上对偶学习,模型参数共享的思考

本文记录一下unilm与对偶学习的一些碰撞火花。【业务情景】:需要使用unilm来进行对偶学习。比如我们有A模型,B模型,需要同时训练这两个,他们的输入和输出是互补的。A的输出可以作为B的输入,B的输出可以作为A的输入。【unilm说明】:仓库,论文,unilm的训练和推断阶段不太一致,包括模型结构和数据在模型里的处理。仓库提供的代码是分了两个阶段:训练+推断,即不同阶段使用不同的模型结构。...

2020-05-02 14:41:10 364

原创 Docker安装与日常使用

【本文是作者给自己实验室同学写的一个guide,分享给有需要的同学】安装教程网页:官方安装教程警告: apt源不对的话可能会导致安装失败1.卸载旧版本:sudo apt-get remove docker docker-engine docker.io containerd runc2.添加仓库源:sudo apt-get updatesudo apt-get install ...

2020-04-06 21:27:04 201

原创 Python多进程处理数据配合tqdm进度条,全局资源处理

预处理数据的时候使用多进程可以大大减少程序运行时间。上代码with Pool(15)as proc: results = list( tqdm( proc.imap(convert_one,files, ), total=len(files) ))results ...

2020-04-06 21:15:18 1843 4

原创 Bert tokenizer新增token

transformers库的BertTokenizer新增token在与vocab.txt同级的地方新建added_tokens.json,写入以下内容:{ "[X_SEP]":12345, "[SEN_SEP]":1}key值是token,value值为该token对应的id。如上所示,tokenizer.encode('[X_SEP][SEN_SEP]'), 得到的结果是[12...

2020-04-06 18:49:33 9095 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除