自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Megatron-Deepspeed 预训练 GPT-小白踩坑与解决

Megatron deepspeed 实现对 gpt 的预训练

2022-11-02 15:25:20 8811 4

原创 深度学习大模型训练--分布式 deepspeed PipeLine Parallelism 源码解析

Deepspeed pipeline Parallelism 源码解读以 alexnet 为例讲解 profile,compute partition,convert model,runtime 四个步骤

2022-10-26 18:15:03 3691 1

原创 深度学习大模型训练

大模型算法的出现Transformer有了Transformer的基础架构后,在18年推出了BERT预训练模型,之后的所有大模型都是基于Transformer结构和BERT的预训练机制。后面比较有意思的就是使用Transformer机制的视觉大模型ViT和引入专家决策机制的MoE。Attention is all you need该模型可以高度并行地工作,所以在提升翻译性能的同时训练速度也特别快。BERTGoogle发布的首个预训练大模型BERT,从而引爆了预训练大模型的潮流和趋势GPT-3

2022-03-30 11:31:54 2482

原创 Transformer 架构与源码结合讲解

1.PatchEmbedding图1 下# 就是结构最底层的patchEmbedding,使用卷积层实现将大图片分解为小patch作为类似文本处理的时序输入class PatchEmbed(nn.Module): """ 2D Image to Patch Embedding """ # vit-B 的dim是默认的768 def __init__(self, img_size=224, patch_size=16, in_c=3, embed_dim=768.

2022-03-30 10:42:25 476

原创 pytorch.utils.data.DataLoader

Dataloader 基础知识是PyTorch中数据读取的一个重要接口,该接口定义在pytorch.utils.data.dataloader.py中,目的是:将自定义的Dataset根据batch size大小、是否shuffle等封装成一个Batch Size大小的Tensor,用于后面的训练。dataloader本质是一个可迭代对象,使用iter()访问,不能使用next()访问DataLoader本质上就是一个iterable(跟python的内置类型list等一样),并利用多进程来加速ba

2022-03-18 18:09:10 1835

原创 VSCode 通过remote ssh链接服务器 试图写入的管道不存在

VSCode 通过remote ssh链接服务器 试图写入的管道不存在我的问题解决思路具体做法先找到mobaxterm的nc.exe的目录之后有两种做法,将nc配置进vscode的remote ssh将整个路径C:\Users\Administrator.DESKTOP-T3HC6UD\Documents\MobaXterm\slash\bin放入环境变量中在remote ssh的config文件中,直接将nc改为nc.exe 的路径我的问题mobaXterm可以链接,但使用vscode 的remote

2022-03-18 09:08:13 1050

原创 LeetCode-Pid1

LeetCode-Pid1题目如下:java HashMap一次循环解法import java.util.Map;class Solution{ public int[] twoSum(int[] nums,int target){ Map<Integer,Integer> map=new HashMap<>(); ...

2020-01-21 10:59:56 151

原创 微信小程序开发学习

微信小程序开发学习这是第二次学习微信小程序开发以下内容来自微信开放社区的学习内容,是自己个人的总结WXML数据绑定:{{变量名}}----.wxml ------使得其有动态渲染能力 data:{变量名:(java语法获得)}------.js动态渲染:变量名可以使变量常量,表达式逻辑语句wx:java逻辑语法关键字=“{{condition}}”列表渲染:即数组的使用,将con...

2019-06-30 20:44:41 171

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除