- 博客(8)
- 收藏
- 关注
原创 深度学习大模型训练--分布式 deepspeed PipeLine Parallelism 源码解析
Deepspeed pipeline Parallelism 源码解读以 alexnet 为例讲解 profile,compute partition,convert model,runtime 四个步骤
2022-10-26 18:15:03 3691 1
原创 深度学习大模型训练
大模型算法的出现Transformer有了Transformer的基础架构后,在18年推出了BERT预训练模型,之后的所有大模型都是基于Transformer结构和BERT的预训练机制。后面比较有意思的就是使用Transformer机制的视觉大模型ViT和引入专家决策机制的MoE。Attention is all you need该模型可以高度并行地工作,所以在提升翻译性能的同时训练速度也特别快。BERTGoogle发布的首个预训练大模型BERT,从而引爆了预训练大模型的潮流和趋势GPT-3
2022-03-30 11:31:54 2482
原创 Transformer 架构与源码结合讲解
1.PatchEmbedding图1 下# 就是结构最底层的patchEmbedding,使用卷积层实现将大图片分解为小patch作为类似文本处理的时序输入class PatchEmbed(nn.Module): """ 2D Image to Patch Embedding """ # vit-B 的dim是默认的768 def __init__(self, img_size=224, patch_size=16, in_c=3, embed_dim=768.
2022-03-30 10:42:25 476
原创 pytorch.utils.data.DataLoader
Dataloader 基础知识是PyTorch中数据读取的一个重要接口,该接口定义在pytorch.utils.data.dataloader.py中,目的是:将自定义的Dataset根据batch size大小、是否shuffle等封装成一个Batch Size大小的Tensor,用于后面的训练。dataloader本质是一个可迭代对象,使用iter()访问,不能使用next()访问DataLoader本质上就是一个iterable(跟python的内置类型list等一样),并利用多进程来加速ba
2022-03-18 18:09:10 1835
原创 VSCode 通过remote ssh链接服务器 试图写入的管道不存在
VSCode 通过remote ssh链接服务器 试图写入的管道不存在我的问题解决思路具体做法先找到mobaxterm的nc.exe的目录之后有两种做法,将nc配置进vscode的remote ssh将整个路径C:\Users\Administrator.DESKTOP-T3HC6UD\Documents\MobaXterm\slash\bin放入环境变量中在remote ssh的config文件中,直接将nc改为nc.exe 的路径我的问题mobaXterm可以链接,但使用vscode 的remote
2022-03-18 09:08:13 1050
原创 LeetCode-Pid1
LeetCode-Pid1题目如下:java HashMap一次循环解法import java.util.Map;class Solution{ public int[] twoSum(int[] nums,int target){ Map<Integer,Integer> map=new HashMap<>(); ...
2020-01-21 10:59:56 151
原创 微信小程序开发学习
微信小程序开发学习这是第二次学习微信小程序开发以下内容来自微信开放社区的学习内容,是自己个人的总结WXML数据绑定:{{变量名}}----.wxml ------使得其有动态渲染能力 data:{变量名:(java语法获得)}------.js动态渲染:变量名可以使变量常量,表达式逻辑语句wx:java逻辑语法关键字=“{{condition}}”列表渲染:即数组的使用,将con...
2019-06-30 20:44:41 171
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人