十年伴树-CSDN博客

不改变transformer的结构。对于transformer中的每一attention或FFN层都有线性层，同时由于transformer中有残差连接（图中的。是transformer中一个块的输出，在经过RMSNorm（对每一行。引入到所有之前的层（一直到编码阶段）和所有之后的层（一直到LM头）。块），在训练集中抽取一些数据作为校准数据，喂给模型用来从前到后。图中的阴影是表示丢弃掉这部分数据。中的每一个元素拉回到0上下，与下一步的。引入每一块的线性层，所以需要把矩阵。)是一个矩阵操作，表示将一个向量。

2024-06-24 20:47:45 836

原创 20240621日志：大模型压缩-从闭源大模型蒸馏

Fig. 1 大模型压缩-知识蒸馏。

2024-06-23 20:50:28 793

原创 20240620日志：TAS-MRAM的电阻开放分析

MRAM(Magnetic random access memory)，磁随机存储器，利用磁性材料的状态来存储数据。MRAM的存储单元通常由一个磁隧道结（MTJ茅台酒MTJ^{茅台酒}MTJ茅台酒，Magnetic Tunnel Junction）组成，它包括两个铁磁（FM）层和一个绝缘的隧穿层。其中一个铁磁层的磁化方向是固定的（称为参考层或钉扎层），另一个铁磁层的磁化方向可以改变（称为自由层）。数据存储在自由层相对于参考层的磁化方向上，当自由层与参考层的电子自旋方向平行，整体表现为小电阻；

2024-06-21 18:25:56 682

原创 20240616日志：大模型压缩方法DMS

内容包含DMS，ANS，泰勒重要度分析，hessian矩阵，Fisher信息量，Fisher信息矩阵

2024-06-18 22:39:03 971

原创过拟合与正则化

过拟合、正则化、稀疏解的图表示

2024-06-17 21:21:17 1077

原创 GPU的工作原理

warp使GPU的基本调度单元，每个warp由32个线程组成，作用是将大量线程分组并同时执行，以实现并行计算和隐藏内存访问延迟，Warp中的32个线程将同时执行相同的指令，但操作不同的数据，但如果遇到条件分支语句（如if语句），不同线程可能会选择不同的执行路径。通过这种一次加载大量数据，让CPU和DRAM之间的传输线忙起来，这从一定程度上“减少”了后面加载的数据的延迟，使程序快速运行，理论上来讲，即使这是单线程的程序，我的循环中迭代729次也是没问题的。对local问题，每增加N到个线程，多加载N。

2024-06-16 16:17:17 1290

原创 20240613日志：大模型压缩方法COPAL

在下面是从校准引导的修剪策略中观察到的权重停滞的数学见解。在持续学习领域，剪枝的作用有助于有效地维护和进化神经网络结构，COPAL提出一种优化LLM的新方法，该方法绕过了再训练过程。当使用新的校准数据集更新修剪后的模型权值时，可以观察到这种健忘现象，这将降低以前遇到的数据集或任务的性能，如图1.3。涉及到对不断进化的模型权重进行修剪，而不失去预训练的LLM的原始能力。方向的权重的变化高度敏感，可以看出这些权重对模型的性能很重要。个数据集的梯度的绝对值的和较小的权重进行剔除，就得到了剪枝后的模型。

2024-06-15 20:35:57 1167

原创 sigmoid函数

σx1e−x1。

2024-06-15 12:05:53 1044

原创 20240610日志:LLM Compression: SVD-LLM

从①中可以看出，忽略掉较小的奇异值0.1的LOSS比忽略掉较大的奇异值0.9的LOSS还要大，从②中可以看出，忽略掉较小的奇异值0.1&0.9的LOSS比忽略掉较大的奇异值2.4&0.1的LOSS还要大，这就证明不能认为小的奇异值对结果的影响就小。因此，在所提出的截断感知数据白化技术下，截断最小的奇异值会导致最小的压缩损失。而对模型输出贡献最小的不太重要的信息被丢弃(大的留下，小的忽略)是对SVD算法对LLM压缩的改进，SVD-LLM不敢苟同章节2.2中提到的“大的留下，小的忽略”进行因式分解的特殊方法。

2024-06-11 22:10:53 1232

原创 C盘永葆青春

3.我们在安装Python库时，pip install xxx 来安装包，但安装下载的文件都会缓存下来，而且一般都在C盘，C:\Users\Administer\AppData\Local\pip\Cache里，这个文件是可删除的。2.检查WPS、QQ、微信、浏览器、钉钉、网易云音乐、飞书、Onenote等设置里的文件保存位置，改到其他盘。1.几乎所有软件下载时都要查一下安装到其他盘。4.桌面文件夹可以使用快捷方式引到其他盘。

2024-06-11 14:20:35 331

原创 20240610:线性变换与矩阵

线性变换可以用矩阵来表示。

2024-06-10 21:32:54 1058

原创 20240605日志:OmniQuant

【代码】20240605日志:OmniQuant。

2024-06-06 22:26:24 1092

原创 20240604日志:Attention

直观解释Attention，图片来自3Blue1Brown

2024-06-04 22:33:08 624

原创 20240603日志:transformer

1] https://www.bilibili.com/video/BV14m421u7EM/ 小黑黑讲AI 2024 Transformer模型详解，Attention is all you need。[2] https://www.bilibili.com/video/BV13z421U7cs 3Blue1Brown 2024 直观解释transformer。

2024-06-03 22:15:03 792

原创基于python的日历生成器（用于打印）

最近发现用平板越来越少了，上次充电还是两周前，今天打开一看还有一半电，每天打开平板就用用苹果日历，感觉用这个日历做计划很好用。所以打算把平板卖掉买个挂历。

2024-04-17 20:53:41 472 1

原创服务器向微信测试号发送卡片、文字消息、图片（部分代码来自GPT-4）

一些报错解决方案和一些工作方案

2023-04-27 20:20:43 441

原创精讲全局变量与局部变量同名时，内存如何分配

当main函数中定义局部变量a，这时候会重新给main函数中的局部变量a（main）分配内存，这里的a（main）的有效区间为一直到main函数的return 0；但是如果在复合语句中再定义一个局部变量a（for），那么系统会再开辟一个内存存放局部变量a（for），复合语句执行完后局部变量a（for）销毁。可以看到在复合语句中直接使用a，找到的是局部变量a(main)，而不是全局变量a，这和书中的内容是一致的。

2023-03-06 11:25:33 247

原创 mp3转wav格式

在线的和软件都试了，就他最管用https://convertio.co/zh/mp3-wav/

2022-02-23 21:30:11 254

原创 pytorch官方文档示例代码报错KeyError: tensor(5)分析

先写解决办法好习惯把报错的一行plt.title(labels_map[label])改成plt.title(labels_map[label.item()])问题、报错分析：最近复制了pytorch官方文档的一段代码做实验# 这段代码在Tutorials>Datasers&Dataloadersimport torchfrom torch.utils.data import Datasetfrom torchvision import datasetsfrom to

2021-07-14 18:40:24 1741

原创深度优先算法（DFS）和广度优先算法（BFS）时间复杂度和空间复杂度计算精讲

现在我们设定任务为到山东菏泽曹县买牛逼，需要利用深度优先算法（DFS）和广度优先算法(BFS)在中国、省会、市、区县这张大的树中搜索到曹县，那么这个任务Goal就是找到曹县。假如图的最大路径长度m和最大分支因子b先用DFS计算时间复杂度和空间复杂度时间复杂度（算法对大小为n-T的实例执行基本操作的次数(n)）:考虑最坏情况，也就是说我们找了整张中国地图的区县最后才找到山东菏泽曹县。时间复杂度就是找每个节点这个过程的数量，总共找了的次数，就是图中弧的个数。按最坏情况每个节点的最大分支因子都是b，

2021-05-18 19:55:55 7146

原创约束满足问题（CSPs）和规划问题（Planning）区别

约束满足问题是求出满足条件的所有解线性规划问题是求出满足条件的最优解

2021-05-18 16:02:42 534

原创通俗理解python列表的深浅拷贝与区分

浅拷贝是只拷贝内容，地址没有拷贝。比如laoBa_home = [1,2]地址是8888，我让laoBa_house = a.copy()这里a和b实际上指向的是同一个地址，a和b只是同一个房子的不同称呼，对b修改a当然也会跟着变。深拷贝是拷贝内容，也“拷贝”地址比如laoBa_home = [1,2]地址是8888，我让xiaoBa_home = copy.deepcopy(laoBa_home ),这里就是照着laoBa_home再盖一所房子叫xiaoBa_home。你修改xiaoBa_home

2020-12-31 20:15:31 211

JiajunSun的博客

原创 cmd中找不到pip和python指令

原创电脑网络波动使服务器进程被kill

原创画图经验贴

原创大模型压缩：使用Fisher信息从低秩表示模型

原创大模型压缩：基于贝叶斯优化的自适应低秩分解

原创大模型压缩-LoRAP

原创 20240623日志：大模型压缩-sliceGPT