m0_46092647-CSDN博客

原创 ZeRO & DeepSpeed: New system optimizations enable training models with over 100 billion parameters

人工智能领域的最新趋势是，更大的自然语言模型提供了更高的准确性；然而，由于成本、时间和代码集成便捷性等因素，更大的模型训练起来比较困难。微软正在发布一个名为 DeepSpeed（在新标签页中打开）的开源库，该库通过提升规模、速度、成本和可用性，极大地推动了大型模型的训练，解锁了训练拥有 1000 亿参数的模型的能力。DeepSpeed 与 PyTorch（在新标签页中打开）兼容。该库中的一个组件名为 ZeRO，是一种新的并行优化器，能够极大地减少模型和数据并行所需的资源，同时大幅增加可训练参数的数量。

2024-08-19 17:03:38 639

原创 Lora 全文翻译

自然语言处理的一个重要范式包括在通用领域数据上进行大规模预训练，并适应特定任务或领域。随着我们预训练更大的模型，重新训练所有模型参数的全面微调变得不太可行。以GPT-3 175B为例——部署具有1750亿参数的独立微调模型实例成本极高。我们提出了低秩适应（Low-Rank Adaptation，简称LoRA），该方法冻结了预训练模型的权重，并在Transformer架构的每一层中注入可训练的低秩分解矩阵，从而大大减少了下游任务的可训练参数数量。

2024-08-14 21:22:32 953

原创 peft中文文档

来训练这个模型。

2024-08-14 15:59:38 791

原创 UTF（Unicode Transformation Format）是一类字符编码

UTF（Unicode Transformation Format）是一类字符编码方式的总称，其中包含了多种具体的编码方式，如UTF-8、UTF-16、UTF-32等。这些编码方式在长度上有所不同，因此不能一概而论地说UTF是定长的还是变长的。

2024-07-26 13:09:51 336

原创 CUDAc

主要体现在编程模型、内存管理、执行环境以及扩展功能等方面。cuda 就是将C++开发者与联系起来的工具。CUDA 如何与C++ 并行不背。

2024-07-25 16:08:13 881

原创 MSY32 介绍

作者：ygz时间：20240724地点：hbyt下载C++ 经历。

2024-07-24 20:31:39 995

原创 Propagating Knowledge Updates to LMs Through Distillation 小记

这里sunak作为一英国的首相的信息，模型能够知道。但是在使用到这个角色的时候，模型似乎发生了失灵，无法根据sunak的信息推断它会做什么。【这里是有点问题的，因为如果单纯的问一个名称，谁知道你sss啊】。文中接下来也说，和一般的RAG与COT的方法没法比。本文就想弥补这样一个gap，即我能实体注入然后并且能够将其做推理，在参数上的更新，不用提供外挂的知识库，直接让模型懂得这个知识。ample生成数据集，使用kl散度作为损失，然后套用蒸馏的办法，将模型达到所述效果。

2024-07-23 13:48:54 685

原创 NeurIPS2023蒸馏文章摘要集锦与随记

作者：ygz日期：20240721地点：hby言：将自己的哲学贯彻到底。私以为，人生当作一书。

2024-07-21 19:58:52 820

原创利用机器来寻找机器的可解释性，利用机器来解决机器的不足

这句话比较抽象，需要对其进一步的解释。AI给出的答案是AI给出的，体现了AI的能力。作者：ygz时间：20230721地点：hby。

2024-07-21 15:10:11 231

原创机器学习顶会的相关介绍

作者应在论文提交。

2024-07-21 09:19:04 1026

原创电磁波 --- 无线电波 ---- 光波

电磁波：是由同相振荡 [1]且互相垂直的电场与磁场在空间中衍生发射的振荡粒子波，是以波动的形式传播的电磁场，具有波粒二象性，其粒子形态称为光子，电磁波与光子不是非黑即白的关系，而是根据实际研究的不同，其性质所体现出的两个侧面。由同相振荡且互相垂直的电场与磁场在空间中以波的形式移动，其传播方向垂直于电场与磁场构成的平面。频率大约为300,000,000KHz（300GHz）以下，或波长大于1mm的电磁波，由于它是由振荡电路的交变电流而产生的，可以通过天线发射和吸收故称之为无线电波。算是解决我的疑惑罢了。

2024-07-20 22:50:24 430

原创使用deepspeed训练你的大模型

deepspeed被用来训练或者是训练一些大模型的过程deepspeed 提供了一个系统级的技术，让训练这些模型得到可能。最佳的技术去训练大模型依赖于多样的因素，如：模型结构、批次、互联带宽等等。鉴于大量可用的选择，这是让人困惑的或者是令人烦躁的【调节参数】，这个页面是开始训练大模型的一个指南。

2024-07-19 15:50:15 721

原创 deepspeed 推理基于基于transformer的模型

deepspeed 推理基于基于transformer的模型DeepSpeed-Inference：支持模型并行，减少延迟与成本【大GPU比较贵，使用cpu比较慢】，使用量化技术。要在多块的GPU上进行推理工作，需要提供模型的并行度和检查点的信息，或者已经加载好的模型。deepspeed 将会做剩下的事情。它将会自动的分区这个模型，使用相匹配的cuda kernel 在我们的模型中，并且管理GPU之间的通讯机制。【目前兼容的模型有这些】

2024-07-19 14:12:41 1085

原创 deepspeed 1

[TOC]deepspeed 中文简要文档作者：ygz时间：20240719。

2024-07-19 12:42:51 990

原创问题：前段时间

百万级别小时，如果放在单GPU上可能是跑不动的，需要的时间更久，疯狂的存储的换入换出的机制。在多几倍的时间都不够。7，作者写的这个是基于pth保存的模型写的，若是我想使用huggingface上的模型，那就需要去将其改为huggingface上的模型，或者说使用那个后端评估框架。Q6.3：前面做蒸馏的时候，我们是放在更高的层次（别的层次）来看待蒸馏的过程的，那么它是如何使用多种并行机制的呢（这里是指加载模型）？使用gpt3 达芬奇系列，根据一个指定，输出种子集，生成指令，与对应的答案，生成大量的数据。

2024-07-14 00:50:17 483

m0_46092647的博客

原创 ZeRO & DeepSpeed: New system optimizations enable training models with over 100 billion parameters

原创 Lora 全文翻译

原创 peft中文文档

原创 UTF（Unicode Transformation Format）是一类字符编码

原创 CUDAc

原创 MSY32 介绍

原创 Propagating Knowledge Updates to LMs Through Distillation 小记

原创 NeurIPS2023蒸馏文章摘要集锦与随记

原创利用机器来寻找机器的可解释性，利用机器来解决机器的不足

原创机器学习顶会的相关介绍

原创电磁波 --- 无线电波 ---- 光波

原创使用deepspeed训练你的大模型

原创 deepspeed 推理基于基于transformer的模型

原创 deepspeed 1

原创问题：前段时间

原创 Reducing Activation Recomputation in Large Transformer Models

原创 FlashAttention: Fast and Memory-Efficient Exact Attentionwith IO-Awareness

原创 Less is More: Task-aware Layer-wise Distillation for Language Model Compression

原创 The LAMBADA dataset:Word prediction requiring a broad discourse context

原创 LSTM笔记-zgy

原创 2019-12-29

原创 2019-12-26

原创 2019-12-26

原创 2019-12-25

空空如也

空空如也