最棒的阿树
码龄8年
关注
提问 私信
  • 博客:27,144
    27,144
    总访问量
  • 5
    原创
  • 2,038,182
    排名
  • 3
    粉丝
  • 0
    铁粉

个人简介:a student in UESTC

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2017-05-25
博客简介:

cjs8348797的博客

查看详细资料
个人成就
  • 获得27次点赞
  • 内容获得22次评论
  • 获得66次收藏
创作历程
  • 1篇
    2021年
  • 4篇
    2020年
成就勋章
兴趣领域 设置
  • 人工智能
    机器学习深度学习神经网络自然语言处理pytorchnlp
创作活动更多

开源数据库 KWDB 社区征文大赛,赢取千元创作基金!

提交参赛作品,有机会冲刺至高2000元的创作基金,快来参与吧!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

pytorch 加载大数据集 内存不够 的处理方式

文章用于记录一下本人对于较大数据集加载的问题的一些解决办法和思考。(比较口水话)我之前训练某个特定任务,习惯于把数据提前预处理为dataset保存起来【参见这里】,然后每次训练的时候直接加载这个文件。我这样做的目的是,方便调代码,使用很小量的数据先把代码调通,当出现一些小问题时不至于数据处理很久。但是最近在使用自己的一些语料微调一个语言模型, 语料纯文本大小大概在8G左右,使用预处理脚本CPU满速处理后使用torch.save()保存成二进制文件,大概也8G左右。这个时候问题来了,我使用了8张卡跑代码
原创
发布博客 2021.04.14 ·
15191 阅读 ·
19 点赞 ·
16 评论 ·
57 收藏

unilm遇上对偶学习,模型参数共享的思考

本文记录一下unilm与对偶学习的一些碰撞火花。【业务情景】:需要使用unilm来进行对偶学习。比如我们有A模型,B模型,需要同时训练这两个,他们的输入和输出是互补的。A的输出可以作为B的输入,B的输出可以作为A的输入。【unilm说明】:仓库,论文,unilm的训练和推断阶段不太一致,包括模型结构和数据在模型里的处理。仓库提供的代码是分了两个阶段:训练+推断,即不同阶段使用不同的模型结构。...
原创
发布博客 2020.05.02 ·
427 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Docker安装与日常使用

【本文是作者给自己实验室同学写的一个guide,分享给有需要的同学】安装教程网页:官方安装教程警告: apt源不对的话可能会导致安装失败1.卸载旧版本:sudo apt-get remove docker docker-engine docker.io containerd runc2.添加仓库源:sudo apt-get updatesudo apt-get install ...
原创
发布博客 2020.04.06 ·
241 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python多进程处理数据配合tqdm进度条,全局资源处理

预处理数据的时候使用多进程可以大大减少程序运行时间。上代码with Pool(15)as proc: results = list( tqdm( proc.imap(convert_one,files, ), total=len(files) ))results ...
原创
发布博客 2020.04.06 ·
1972 阅读 ·
2 点赞 ·
4 评论 ·
1 收藏

Bert tokenizer新增token

transformers库的BertTokenizer新增token在与vocab.txt同级的地方新建added_tokens.json,写入以下内容:{ "[X_SEP]":12345, "[SEN_SEP]":1}key值是token,value值为该token对应的id。如上所示,tokenizer.encode('[X_SEP][SEN_SEP]'), 得到的结果是[12...
原创
发布博客 2020.04.06 ·
9312 阅读 ·
6 点赞 ·
2 评论 ·
8 收藏