自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 ZeRO & DeepSpeed: New system optimizations enable training models with over 100 billion parameters

人工智能领域的最新趋势是,更大的自然语言模型提供了更高的准确性;然而,由于成本、时间和代码集成便捷性等因素,更大的模型训练起来比较困难。微软正在发布一个名为 DeepSpeed(在新标签页中打开)的开源库,该库通过提升规模、速度、成本和可用性,极大地推动了大型模型的训练,解锁了训练拥有 1000 亿参数的模型的能力。DeepSpeed 与 PyTorch(在新标签页中打开)兼容。该库中的一个组件名为 ZeRO,是一种新的并行优化器,能够极大地减少模型和数据并行所需的资源,同时大幅增加可训练参数的数量。

2024-08-19 17:03:38 639

原创 Lora 全文翻译

自然语言处理的一个重要范式包括在通用领域数据上进行大规模预训练,并适应特定任务或领域。随着我们预训练更大的模型,重新训练所有模型参数的全面微调变得不太可行。以GPT-3 175B为例——部署具有1750亿参数的独立微调模型实例成本极高。我们提出了低秩适应(Low-Rank Adaptation,简称LoRA),该方法冻结了预训练模型的权重,并在Transformer架构的每一层中注入可训练的低秩分解矩阵,从而大大减少了下游任务的可训练参数数量。

2024-08-14 21:22:32 953

原创 peft中文文档

来训练这个模型。

2024-08-14 15:59:38 791

原创 UTF(Unicode Transformation Format)是一类字符编码

UTF(Unicode Transformation Format)是一类字符编码方式的总称,其中包含了多种具体的编码方式,如UTF-8、UTF-16、UTF-32等。这些编码方式在长度上有所不同,因此不能一概而论地说UTF是定长的还是变长的。

2024-07-26 13:09:51 336

原创 CUDAc

主要体现在编程模型、内存管理、执行环境以及扩展功能等方面。cuda 就是将C++开发者与联系起来的工具。CUDA 如何与C++ 并行不背。

2024-07-25 16:08:13 881

原创 MSY32 介绍

作者:ygz时间:20240724地点:hbyt下载C++ 经历。

2024-07-24 20:31:39 995

原创 Propagating Knowledge Updates to LMs Through Distillation 小记

这里sunak作为一英国的首相的信息,模型能够知道。但是在使用到这个角色的时候,模型似乎发生了失灵,无法根据sunak的信息推断它会做什么。【这里是有点问题的,因为如果单纯的问一个名称,谁知道你sss啊】。文中接下来也说,和一般的RAG与COT的方法没法比。本文就想弥补这样一个gap,即我能实体注入然后并且能够将其做推理,在参数上的更新,不用提供外挂的知识库,直接让模型懂得这个知识。ample生成数据集,使用kl散度作为损失,然后套用蒸馏的办法,将模型达到所述效果。

2024-07-23 13:48:54 685

原创 NeurIPS2023蒸馏文章摘要集锦与随记

作者:ygz日期:20240721地点:hby言:将自己的哲学贯彻到底。私以为,人生当作一书。

2024-07-21 19:58:52 820

原创 利用机器来寻找机器的可解释性,利用机器来解决机器的不足

这句话比较抽象,需要对其进一步的解释。AI给出的答案是AI给出的,体现了AI的能力。作者:ygz时间:20230721地点:hby。

2024-07-21 15:10:11 231

原创 机器学习顶会的相关介绍

作者应在论文提交。

2024-07-21 09:19:04 1026

原创 电磁波 --- 无线电波 ---- 光波

电磁波:是由同相振荡 [1]且互相垂直的电场与磁场在空间中衍生发射的振荡粒子波,是以波动的形式传播的电磁场,具有波粒二象性,其粒子形态称为光子,电磁波与光子不是非黑即白的关系,而是根据实际研究的不同,其性质所体现出的两个侧面。由同相振荡且互相垂直的电场与磁场在空间中以波的形式移动,其传播方向垂直于电场与磁场构成的平面。频率大约为300,000,000KHz(300GHz)以下,或波长大于1mm的电磁波,由于它是由振荡电路的交变电流而产生的,可以通过天线发射和吸收故称之为无线电波。算是解决我的疑惑罢了。

2024-07-20 22:50:24 430

原创 使用deepspeed训练你的大模型

deepspeed被用来训练或者是训练一些大模型的过程deepspeed 提供了一个系统级的技术,让训练这些模型得到可能。最佳的技术去训练大模型依赖于多样的因素,如:模型结构、批次、互联带宽等等。鉴于大量可用的选择,这是让人困惑的或者是令人烦躁的【调节参数】,这个页面是开始训练大模型的一个指南。

2024-07-19 15:50:15 721

原创 deepspeed 推理基于基于transformer的模型

deepspeed 推理基于基于transformer的模型DeepSpeed-Inference:支持模型并行,减少延迟与成本【大GPU比较贵,使用cpu比较慢】,使用量化技术。要在多块的GPU上进行推理工作,需要提供模型的并行度和检查点的信息,或者已经加载好的模型。deepspeed 将会做剩下的事情。它将会自动的分区这个模型,使用相匹配的cuda kernel 在我们的模型中,并且管理GPU之间的通讯机制。【目前兼容的模型有这些】

2024-07-19 14:12:41 1085

原创 deepspeed 1

[TOC]deepspeed 中文简要文档作者:ygz时间:20240719。

2024-07-19 12:42:51 990

原创 问题:前段时间

百万级别小时,如果放在单GPU上可能是跑不动的,需要的时间更久,疯狂的存储的换入换出的机制。在多几倍的时间都不够。7,作者写的这个是基于pth保存的模型写的,若是我想使用huggingface上的模型,那就需要去将其改为huggingface上的模型,或者说使用那个后端评估框架。Q6.3:前面做蒸馏的时候,我们是放在更高的层次(别的层次)来看待蒸馏的过程的,那么它是如何使用多种并行机制的呢(这里是指加载模型)?使用gpt3 达芬奇系列,根据一个指定,输出种子集,生成指令,与对应的答案,生成大量的数据。

2024-07-14 00:50:17 483

原创 Reducing Activation Recomputation in Large Transformer Models

训练大的transformer模型需要的资源是庞大的,内存是主要的限制之一。在前向传播的过程不保存激活值,反向传播的时候重计算。这节约了内存,但是增加了计算。

2024-07-08 19:31:13 255

原创 FlashAttention: Fast and Memory-Efficient Exact Attentionwith IO-Awareness

大模型加速

2024-07-07 22:12:17 557

原创 Less is More: Task-aware Layer-wise Distillation for Language Model Compression

因此,若能找到一种技术,将模型的参数进行压缩,并且能使得压缩后的模型的性能与原始模型差距不大,这样的技术将具有很大的应用场景。知识蒸馏就是这样一种模型的压缩技术,通过让学生模型(一个参数量小的模型)去学习教师模型(高性能的模型,大参数量的模型)的中间层表示或者最终的输出分布信息,使得学生模型能具有与教师模型相似的性能。最小化这样一个损失,第一项损失表示的是最小化学生输出与标签的损失,第二项损失是最小化学生最终输出的向量与教师的损失,第三项损失是最小化教师中间层表示与学生中间层表示的损失。

2024-03-21 12:20:22 469 1

原创 The LAMBADA dataset:Word prediction requiring a broad discourse context

LAMBADA是一个数据集,用于评估模型对文本理解的能力,通过使用词预测任务。这个词预测任务有这样的性质,即必须阅读全文,对全文有理解后,才能选出正确答案。

2024-03-17 16:55:35 502 1

原创 LSTM笔记-zgy

遗忘门、输入门、输出门、记忆门都是一个简单的神经网络。输入为上个时刻的隐状态与当前时刻的输入xi。遗忘门、输入门、输出门,输出的是一个(0,1)之间的值,使用的是sigmoid函数。记忆门使用的是一个tanh函数,输出的是一个记忆的特征向量。遗忘分数乘以过去的记忆加上输入分数乘以当前的记忆等于当前时刻之前的记忆。当前时刻的记忆使用tanh函数变换之后乘以输出分数等于当前时刻的隐藏状态。

2024-03-16 19:01:22 388 1

原创 2019-12-29

随机变量的数据特征数学期望1,数学期望:对应值乘以其所对应的概率的求和。2,性质:a,随机变量乘以一个常数得的新随机变量的期望等于原随机变量的期望乘以那个...

2019-12-29 22:25:15 2189

原创 2019-12-26

多维随机变量及其分布二维随机变量1,定义在样本空间上的两个随机变量X,Y从新构成一个(X,Y)随机变量。2,二维随机变量的分布函数为关于x,y的二元函数。称为X,Y的联合概率分布函数。3,二维随机变量的概率密度(类似)。边缘分布1,对于二维随机变量(X,Y)的分布函数,X,Y的分布函数称为二维随机变量的边缘分布函数。2,边缘分布函数:在连续型随机变量,对于X的分布函数为对联合概率分布...

2019-12-26 14:05:09 720

原创 2019-12-26

随机变量及其分布随机变量1,随机变量:定义在样本空间上的单值函数。以大写字母X,Ys等表示。2,离散型随机变量:随机变量可能取得值是有限个 ,或是可列无限个。3,离散型随机变量的分布律:两种表示法。a,表格法(写出离散型随机变量可能的取值,在各种随机变量可能取值下的概率)随机变量的分布函数1,随机变量的分布函数,对于任意的随机变量有一个函数随机变量的取值与概率有F这样一个映射关系。2...

2019-12-26 13:30:19 748 1

原创 2019-12-25

概率论的基本概念随机实验1,统计规律:大量实验观察中的存在固有规律。栗子:麦克斯韦速率分布律。2,随机现象:在个别实验呈现不确定性,在大量实验存在统计规律性。栗子:掷骰子。3,随机实验性质a、可以在相同条件下重复进行。b、每次实验结果不确定的。但所有结果在事先应可以直接知道。样本空间,随机事件1 ,样本空间:一个随机实验发生所有结果的集合。2,样本点:随机实验的每个结果看为一...

2019-12-26 00:39:06 96

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除