自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 对NLP模型的感性认知(二)-----bert哪部分参数占比更大?

84934656,sd=23440896,相加为108,375,552,也就是108M,我们可以看到,FFN,self-attention,以及输入部分的参数量没有数量级上的差距。FFN部分,bert的处理方式和transformer一样,隐藏维度为4d:那么参数量为d*4d+4d+4d*d+d=8。需要注意的是,在接下来layer normalization部分有可训练的参数,但是这里考虑到数量级很小,我们略去。encoder block我们沿用上一期的计算结果 (3d+d)*d/h*h =4。

2023-05-07 18:35:10 89

原创 对NLP模型的感性认知(一):transformer为基础的结构中究竟哪部分参数多——参数量计算

先贴上一张transformer的图。注意这张图是模型图,而并非按照模型参数量大小去理解的图。那么,也就说,其中相当一部分参数来自于Feed Forward。这部分在原始论文中隐藏层维度为4d,那么参数量为d*4d+4d*d=8。+nd+md),假如我们进一步忽略一次项目,可以粗略估算参数量为。在自注意力部分的参数量为:(3d+d)*d/h*h =4。在输入层的embedding部分参数量为:nd+md。,在自注意力模块后还有MLP模块,也就是图中的。为了简化计算,我们忽略了偏置矩阵。

2023-05-05 16:56:36 306 1

原创 基于peft以及清华GLM 6b模型的微调方式理解

主要有lora,清华的p-tuning V1,V2,prefix-tuning,prompt-tuning,以及freeze这几个方法。但是需要注意,清华的ptuningv2与peft库不兼容,也就是说如果要通过ptuning微调GLM模型,需要用到清华大学开源出的ptuningv2代码。清华的p tuning v2相当于peft中的prefix tuning。在peft库中p tuning是清华的p tuning V1,而prompt tuning是一篇更早的论文,

2023-05-04 16:59:19 556 1

原创 prompt和instruct的区别究竟是什么

民事责任的适用条件包括:1.有过错:造成损害的行为必须是具有过错的行为,不能是无过错的行为。总之,当出现道路交通事故中的民事责任问题时,需要根据具体情况来判断,如果当事人的行为具有过错,并且由此给他人造成了损失,那么该当事人就应当承担民事责任,进行赔偿等相应处理。在目前实际的运用当中,我们通常会说,给大语言模型写一个prompt,但是我们很少会给语言模型写instruct,与此同时,只有instructGPT而没有promptGPT。需要注意的是,在实际运用当中,prompt和instruct时常混用!

2023-05-04 16:41:22 3344 1

原创 leetcode 打家劫舍的循环坑

但是这行代码思想是没有问题的,那么问题出在哪里呢。注意我们的dp数组,这个数组应该最起码是非减的, 所以我们的初始化步骤看起来没有问题,实则应该改为。在做lc打家劫舍的时候把代码写成了。

2023-05-04 14:32:18 45 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除