自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 【论文笔记】CODE2SEQ: GENERATING SEQUENCES FROM STRUCTURED REPRESENTATIONS OF CODE

tanhWin​encodepathv1...vl;encodetokenvaluev1));encodetokenvaluevl。

2024-02-19 16:37:24 795 1

原创 【论文笔记】SEQ2SQL: GENERATING STRUCTURED QUERIES FROM NATURAL LANGUAGE USING REINFORCEMENT LEARNING

处理输入:xcol;x1c​;x2c​;...;xNc​;sql;xs;question;xqt​t​stptr​WptrtanhUptrgs​Vptrht​ftmaxαstptr​)LossLaggLselLwheαtinp​Winphtenc​βinpsoftmaxαinp)κagg。

2024-02-19 11:49:07 917 1

原创 【论文笔记】Imperceptible Adversarial Attacks on Tabular Data

【论文阅读】Imperceptible Adversarial Attacks on Tabular Data。

2024-02-18 19:07:10 809

原创 【论文笔记】Adversarial Attacks for Tabular Data

保证修改的值合理,不修改不能修改的值(如电脑自动生成的值,像excel里面的sum)要让操作距离最小且判断正确(也就是attack)失败的概率最小。r, v是自己设的值。

2024-02-18 18:12:06 941

原创 Attention

输入一个sequence, 我们预测的下一个字符要与前面的sequence都有关联,不能只看前一个字符来预测下一个。如果需要整个序列上的字符都能communicate to each other(encoder block),去掉。又发现如果直接用q@k.transpose(-2, -1)得到w,w的值过大,我们需要它接近1,则用。w要使得sequence中的token能够communicate,我们可以用矩阵乘法来实现。softmax可以让较大的值更明显,让diffuse的值变converge。

2024-02-16 10:59:25 883 1

原创 【论文笔记】Pre-train, Prompt, and Predict

语言模型的参数不进行改变,添加提示,并在提示部分引入额外参数。仅对提示部分的参数进行训练。语言模型的参数参与训练,提示部分的参数固定,与上一种方法相反。

2024-02-13 15:16:09 954

原创 LLAMA

再进行一次RMSNorm乘上classifier weights最后得到Logits。

2024-02-12 13:58:39 993 1

原创 Translation

以为例。

2024-01-28 16:44:38 824 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除