自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 llama-factory 代码阅读

pt: 是自回归的任务{"text":content} 这样的文本即可 需要自己的数据进行领域知识的注入, 继续预训练和从零开始预训练在本质上是没有区别的,只不过一个是随机初始化参数 一个不是随机初始化参数。sft 是怎么区分不同的微调方法(full, freeze, lora) 以及具体是freeze哪些参数 freeze哪些参数是在adapter 中进行指定的。在loader文件的 load_model() 这个函数中有这样一行代码,指定了模型的哪些参数是可以训练的呢。

2024-07-04 16:37:58 513 1

原创 Llama Factory 笔记

============ 以上是 2024.05.29 的 最新 LLaMa Factory 版本 =====================可以看到 train.py 就是用到了 llamafactory.train.tuner ,所以进一步看一下 llamafactory 文件的目录结构。======================= 以上 2024/05/27 ========================(可能需要修改 gradio 下面一个包的权限,创建一个公共的端口就可以)

2024-06-07 11:38:17 1245 1

原创 python 相对导入

如果 main 和 moudle1 并列就会报错:ImportError: attempted relative import with no known parent package。意思就是你必须把用到 相对导入 的整个包(在yanshi 这个包里面用到了)都导入进来,以便于解释器能知道是哪一个包。如果在这个包下使用 ,python是不能知道当下在那个包里面的。yanshi 文件夹 和 main.py 文件夹是并列的。

2024-05-30 16:00:29 246

原创 ChatGLM 不同代数之间的模型结构区别

1. SelfAttention之后的前馈网络有不同。ChatGLM用GELU(Gaussian Error Linear Unit)做激活;ChatGLM用Swish-1做激活。ChatGLM2与ChatGLM3模型架构是完全一致的,ChatGLM与后继者结构不同。可见ChatGLM3相对于ChatGLM2没有模型架构上的改进。2. 采用的Norm层是不知样的 ChatGLM: LayerNorm ChatGLM2: RMSNorm。

2024-04-18 14:23:40 493 1

原创 pytorch 手写注意力机制

注意力机制的论文: Attention is All your need。

2024-03-28 11:10:05 202

原创 powershell

win

2024-02-29 10:35:15 382

转载 docker

http://t.csdnimg.cn/I4INW

2024-02-23 10:56:09 45 1

原创 torch nn.Embedding 参数

m:代表的是词表中词的数量,一般是一个比较大的数字,词表如果是5000就m=5000,用vocabulary_size表述似乎更合适。n: hidden_size,词嵌入维度,就是词在向量化之后用多少维的向量进行表示。

2023-12-15 10:05:34 109

原创 tex符号对应公式表

转载,

2023-11-07 17:01:27 104

原创 安装apex包错误

在github下载 apex-master 包,进入这个文件夹,shift+鼠标右键 打开powershell 输入:python setup.py install 即可解决。卸载原有的torch下载新的torch。

2023-09-17 10:35:32 155 1

原创 从RNN到LSTM(3D图解) 循环神经网络,长短时记忆网络.形象易懂u

在介绍循环神经网络之前首先来看全连接的神经网络循环神经网络相当于将多个全连接神经网络,在时间上进行连接将上述图像旋转90度对上图片进行简化得到其中 hi是隐状态,Xi是输入向量,当前时刻的输出取决于上一时刻的隐状态以及当前时刻的输入。

2023-08-07 19:53:45 279

原创 几种排序算法JAVA实现

冒泡排序、插入排序、归并排序、快速排序。方法定义在ArrayUtil类中。可以自己利用主类主方法进行调用。

2023-02-28 20:00:51 107

原创 图论 最小生成树算法 Kruskal‘s Algorithm (克鲁斯卡尔算法) Prim‘s Algrorithm(普利姆算法)原理以及python实现

保姆级教程最小生成树算法中比较经典的算法有两个(1) Kruskal's Algorithm (克鲁斯卡尔算法) (2) Prim's Algrorithm(普利姆算法)以及两种算法的python实现

2022-12-07 20:27:59 1974

原创 CNN的反向传播

理解CNN(神经网络)怎么进行反向传播,怎么更新到上一层的参数,每一层参数更新的过程

2022-11-13 15:22:04 1729

ELMo, GPT等经典模型的介绍与对比_张小猪的家的博客-CSDN博客_自然语言处理经典模型.mhtml

ELMo, GPT等经典模型的介绍与对比_张小猪的家的博客-CSDN博客_自然语言处理经典模型.mhtml

2022-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除