- 博客(8)
- 收藏
- 关注
原创 【论文笔记】CODE2SEQ: GENERATING SEQUENCES FROM STRUCTURED REPRESENTATIONS OF CODE
tanhWinencodepathv1...vl;encodetokenvaluev1));encodetokenvaluevl。
2024-02-19 16:37:24
795
1
原创 【论文笔记】SEQ2SQL: GENERATING STRUCTURED QUERIES FROM NATURAL LANGUAGE USING REINFORCEMENT LEARNING
处理输入:xcol;x1c;x2c;...;xNc;sql;xs;question;xqttstptrWptrtanhUptrgsVptrhtftmaxαstptr)LossLaggLselLwheαtinpWinphtencβinpsoftmaxαinp)κagg。
2024-02-19 11:49:07
917
1
原创 【论文笔记】Imperceptible Adversarial Attacks on Tabular Data
【论文阅读】Imperceptible Adversarial Attacks on Tabular Data。
2024-02-18 19:07:10
809
原创 【论文笔记】Adversarial Attacks for Tabular Data
保证修改的值合理,不修改不能修改的值(如电脑自动生成的值,像excel里面的sum)要让操作距离最小且判断正确(也就是attack)失败的概率最小。r, v是自己设的值。
2024-02-18 18:12:06
941
原创 Attention
输入一个sequence, 我们预测的下一个字符要与前面的sequence都有关联,不能只看前一个字符来预测下一个。如果需要整个序列上的字符都能communicate to each other(encoder block),去掉。又发现如果直接用q@k.transpose(-2, -1)得到w,w的值过大,我们需要它接近1,则用。w要使得sequence中的token能够communicate,我们可以用矩阵乘法来实现。softmax可以让较大的值更明显,让diffuse的值变converge。
2024-02-16 10:59:25
883
1
原创 【论文笔记】Pre-train, Prompt, and Predict
语言模型的参数不进行改变,添加提示,并在提示部分引入额外参数。仅对提示部分的参数进行训练。语言模型的参数参与训练,提示部分的参数固定,与上一种方法相反。
2024-02-13 15:16:09
954
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人