自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

cjs8348797的博客

原创 pytorch 加载大数据集内存不够的处理方式

文章用于记录一下本人对于较大数据集加载的问题的一些解决办法和思考。（比较口水话）我之前训练某个特定任务，习惯于把数据提前预处理为dataset保存起来【参见这里】，然后每次训练的时候直接加载这个文件。我这样做的目的是，方便调代码，使用很小量的数据先把代码调通，当出现一些小问题时不至于数据处理很久。但是最近在使用自己的一些语料微调一个语言模型, 语料纯文本大小大概在8G左右，使用预处理脚本CPU满速处理后使用torch.save()保存成二进制文件，大概也8G左右。这个时候问题来了，我使用了8张卡跑代码

2021-04-14 20:42:34 14499 16

原创 unilm遇上对偶学习，模型参数共享的思考

本文记录一下unilm与对偶学习的一些碰撞火花。【业务情景】：需要使用unilm来进行对偶学习。比如我们有A模型，B模型，需要同时训练这两个，他们的输入和输出是互补的。A的输出可以作为B的输入，B的输出可以作为A的输入。【unilm说明】：仓库,论文，unilm的训练和推断阶段不太一致，包括模型结构和数据在模型里的处理。仓库提供的代码是分了两个阶段：训练+推断，即不同阶段使用不同的模型结构。...

2020-05-02 14:41:10 376

原创 Docker安装与日常使用

【本文是作者给自己实验室同学写的一个guide，分享给有需要的同学】安装教程网页：官方安装教程警告: apt源不对的话可能会导致安装失败1.卸载旧版本：sudo apt-get remove docker docker-engine docker.io containerd runc2.添加仓库源：sudo apt-get updatesudo apt-get install ...

2020-04-06 21:27:04 207

原创 Python多进程处理数据配合tqdm进度条，全局资源处理

预处理数据的时候使用多进程可以大大减少程序运行时间。上代码with Pool(15)as proc: results = list( tqdm( proc.imap(convert_one,files, ), total=len(files) ))results ...

2020-04-06 21:15:18 1894 4

原创 Bert tokenizer新增token

transformers库的BertTokenizer新增token在与vocab.txt同级的地方新建added_tokens.json,写入以下内容：{ "[X_SEP]":12345, "[SEN_SEP]":1}key值是token，value值为该token对应的id。如上所示，tokenizer.encode('[X_SEP][SEN_SEP]'), 得到的结果是[12...

2020-04-06 18:49:33 9171 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

最棒的阿树 CSDN认证博客专家 CSDN认证企业博客

码龄7年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

5: 原创

35万+: 周排名

72万+: 总排名

2万+: 访问

: 等级

306: 积分

3: 粉丝

27: 获赞

22: 评论

65: 收藏

私信

关注

热门文章

最新评论

pytorch 加载大数据集内存不够的处理方式
普通网友: 我想请问下这样的话self.data 也会加载四次呀
Bert tokenizer新增token
卷心菜小温: 用了网上好几个方法，终于加上了我的token,感谢
pytorch 加载大数据集内存不够的处理方式
legendayue: 看到邮箱哈哈哈校友
pytorch 加载大数据集内存不够的处理方式
程序猿暴打攻城狮: 博主有考虑是用直接继承iterationdataset嘛, 这么写法好像有点怪怪的, 另外博主用这种方式能够实现GPU跑满嘛, 目前我用这种方式好像没办法把GPU跑满, 浪费性能
Bert tokenizer新增token
code_mryxj: 我这里测试也是直接修改vocab.txt 无法生效，通过tokenize.add_token()之后tokenizer.save_pretrained()，可以保存添加的token进vocab.txt。

最新文章

提示

确定要删除当前文章？

取消删除