- 博客(21)
- 收藏
- 关注
原创 【笔记】拉取镜像
如果没有root的权限的话无法通过改配置文件来修改docker镜像。如下图所示:第一次尝试是错误的,第二次才是正确的。要注意的是不要加https://一般会因为网络不行拉不下来。
2024-11-06 20:28:05 252
原创 【论文速读】Optimization-based Prompt Injection Attack to LLM-as-a-Judge
LLM-as-a-Judge 利用一个大型语言模型(LLM)从一组候选答案中选择给定问题的最佳回答。LLM-as-a-Judge 有许多应用,例如 LLM 驱动的搜索、带有 AI 反馈的强化学习(RLAIF)和工具选择。在这项工作中,提出了 JudgeDeceiver,这是一种针对 LLM-as-a-Judge 的基于优化的提示注入攻击。
2024-10-31 22:14:29 764
原创 【随笔】为什么transformer的FFN先升维后降维&FFN的作用
Transformer 中的前馈神经网络通过先提升再缩小维度,实现了在相对较低输入维度(dmodeldmodel)条件下提升网络的表达能力,同时保持输入输出的一致性。
2024-10-31 20:12:20 605
原创 【笔记】大模型长度外推技术 NTK-Aware Scaled RoPE
直接外推会将外推压力集中在“高位(m较大)”上,而位置内插则会将“低位(m较小)”的表示变得更加稠密,不利于区分相对距离。而NTK-aware Scaled RoPE其实就是进制转换,它将外推压力平摊到每一位上,并且保持相邻间隔不变,这些特性对明显更倾向于依赖相对位置的LLM来说是非常友好和关键的,所以它可以不微调也能实现一定的效果。就是通过进制转换的思想,实现高频外推,低频内插。(声明:文章主要目的是记录学习,内容大多为各路大神的总结)
2024-10-28 21:16:50 681
原创 【论文分享】CPscan: Detecting Bugs Caused by Code Pruning in IoT Kernels
为了降低开发成本,物联网供应商倾向于通过定制Linux内核来构建物联网内核。在此定制过程中,代码精简非常常见。然而,由于Linux内核本身的复杂性以及缺乏长期有效的维护,物联网供应商在精简过程中可能会误删必要的安全操作,导致出现各种问题,例如内存泄漏和空指针引用。此外,检测物联网内核中由代码精简导致的漏洞非常困难。具体而言,(1)结构的显著变化使得准确定位被删除的安全操作(𝐷𝑆𝑂)变得困难;(2)推断𝐷𝑆𝑂的安全影响并非易事,因为它需要复杂的语义理解,包括开发逻辑和对应物联网内核的上下文。
2024-10-26 20:57:36 482
原创 【笔记】LLM位置编码之标准位置编码
transformer位置编码缺点:1. 位置编码是固定的,无法根据具体任务进行调整。2. 固定的位置编码对序列长度有限制。在处理长序列时,正弦和余弦函数的频率可能不足以捕捉所有的位置信息,导致信息丢失。3. 位置编码在训练阶段是静态的。这意味着在训练时确定的位置编码不适用于后续推理时的输入,尤其是推理序列长度大于训练序列长度。
2024-10-25 20:26:17 1137
原创 【笔记】复数基础&&复数相乘的物理意义:旋转+缩放
复数zabiz = a + bizabi可以表示为矩阵Mza−bbaMzab−ba。矩阵乘法Mz1Mz2Mz1Mz2相当于复数的乘法z1⋅z2z1⋅z2。复数乘法的旋转和缩放操作,可以借助矩阵的线性变换实现。
2024-10-25 17:45:32 1087
原创 【论文分享】LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
现在大模型一般是预训练模型通过微调实现特定任务。预训练模型更大时,全量微调的实现代价高。本文提出低秩自适应(Low-Rank Adaptation, LoRA)微调技术,它冻结了预训练的模型权重,并将可训练的秩分解矩阵注入到Transformer架构的每一层,从而大大减少了下游任务的可训练参数的数量。GitHub仓库:https://github.com/microsoft/LoRA。
2024-10-12 23:08:10 1626
原创 【笔记】奇异值分解&特征值分解通俗易懂
SVD也是对矩阵进行分解,但是和特征分解不同,SVD并不要求要分解的矩阵为方阵。假设我们的矩阵AAA是一个m×nm×nm×n的矩阵,那么我们定义矩阵AAAAUΣVT(6)AUΣVT6其中U是一个m×m的矩阵,\Sigma是一个m×n的矩阵,除了主对角线上的元素以外全是0,主对角线上的元素称为奇异值,V是一个n×n的矩阵。
2024-10-12 17:27:16 707
原创 【转载】矩阵的秩
矩阵中所有行向量中极大线性代无关组的元素个数。——而我们前面已经说了,「极大线性无关组」其实就是那个方程组中真正有价值的方程对应的系数向量(干货)。
2024-10-11 17:13:00 223
原创 【笔记】激活函数GELU
GELU(Gaussian Error Linear Unit)2020年提出,相较于 ReLU 函数,GELU 函数在负值区域又一个非零的梯度,从而避免了死亡神经元的问题。另外,GELU 在 0 附近比 ReLU 更加平滑,因此在训练过程中更容易收敛。值得注意的是,GELU 的计算比较复杂,因此需要消耗更多的计算资源。输入x比较大时,GELU基本上就是线性输出和RELU类似。输入x接近0时,GELU是非线性输出,具有一定的连续性。输入x比较小时, GELU的输出就是0。
2024-10-11 15:34:48 1012
原创 【笔记】SWiGLU激活函数-大模型常用
SWiGLU是大模型常用的激活函数,是2020年谷歌提出的激活函数,它结合了SWISH和GLU两者的特点。
2024-10-10 20:45:27 1040
原创 【笔记】asyncio理解入门
但是现在event loop并没有办法执行这个task,因为控制权还在main的手里这个时候main趁着自己有控制权,它就做了第二个task2,也是告诉main这里还有一个新的task,say_task2也可以运行了,在这之后开始await task1,await task2,告诉event loop:我需要这个task完成。Event loop的核心是它有很多很多task,然后它决定哪个task要运行,所有很重要的一件事情是当已经处于async模式下的时候,如何增加task。
2024-10-10 15:32:51 552
原创 【笔记】激活函数SiLU和Swish
Swish 函数在实践中已经证明了其有效性,特别是在深度神经网络中。它既有 ReLU(Rectified Linear Unit)激活函数的一些优点(例如,能够缓解梯度消失问题),又能解决 ReLU 函数的一些缺点(例如,ReLU 函数不是零中心的,且在负数部分的梯度为零)。此外,Swish 函数还是平滑函数,这意味着它在整个定义域内都有导数,这有利于优化。可以看做是平滑的ReLU激活函数。SiLU(Sigmoid Linear Unit)激活函数也被称为 Swish 激活函数。
2024-10-10 15:27:17 365
原创 【笔记】深度学习中常见激活函数(ReLU、ELU、Leakly ReLU等)
同时,因为 Tanh 是 0 均值,也就解决了Sigmoid 函数的非 0 均值的缺点,所以实际中 Tanh 函数会比 Sigmoid 函数更常用。如果不用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合,这种情况就是最原始的感知机(Perceptron)。没有激活函数的每层都相当于矩阵相乘。注:正是因为 ReLU 函数比其他激活函数更适合在神经网络中作为激活函数,或者说优点更加明显,因此综合速率和效率,神经网络中大部分激活函数都使用了ReLU函数。
2024-10-10 15:06:56 918
原创 重拾概率论-记录1
例如,无线电元件的寿命,动物的寿命等,另外电话问题的通话时间、随机服务系统中的服务时间等都可以认为服从指数分布,因此,它在排队论和可靠性理论等领域中有广泛的应用。二项分布是伯努利分布的扩展,即重复n次试验,每次试验都只有两种结果成功/失败,所以每次试验都符合伯努利分布。3. 每1000个新生儿中某出生缺陷、多胞胎、染色体异常等事件出现的例数。3. 相同的实验条件下,每次实验中事件A的发生具有相同的概率。1. 每次实验结果,只能是两个互斥的结果之一。2. 各次实验独立,各次的实验结果互不影响。
2024-04-12 16:54:21 552
原创 关于ARP欺骗
ARP是指地址解析协议要知道什么是ARP欺骗,首先应该了解IP地址,MAC地址IP地址是互联网上的设备(手机,电脑,路由器等等)的逻辑地址,IP地址不唯一。MAC地址是每一个电子设备独有的地址,是全球唯一的,就像每个人的基因。ARP协议就是根据节点(电脑,网关)IP获取到节点的物理地址,即MAC地址。那为什么要获取MAC地址呢?因为: 这是传输数据的需要,OSI模式把网络工作分为七层,彼此不直接打交道,只通过接口(layre interface). IP地址在第三层(网...
2021-10-28 16:45:23 793
原创 《汇编语言程序设计》易错知识,核心知识总结(第一,二章)
本文是主要基于钱晓捷的《汇编语言程序》第五版做出的核心知识总结,对于有一定汇编基础的读者可以加深对汇编的理解,对于初学者可以帮助其对汇编有整体认识。一. 寻址方式;三类,总共七种立即数寻址 eg:mov ax, 0102h寄存器寻址 eg: mov ax, 1234h存储器寻址(五种): 直接寻址: mov ax, [2000h];指令中直接包含有效地址 寄存器间接寻址:有效地址存放在寄存器中,8086中寄存器只能是基址寄存器BX或者变质...
2021-10-23 21:54:14 1784 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人