大模型微调--文章2

最新推荐文章于 2024-08-15 11:31:36 发布

sccum

最新推荐文章于 2024-08-15 11:31:36 发布

阅读量455

点赞数 18

分类专栏：大模型技术总结文章标签：深度学习 python 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sccum/article/details/141068161

版权

大模型技术总结专栏收录该内容

10 篇文章 0 订阅

订阅专栏

原文地址

链接：https://zhuanlan.zhihu.com/p/635686756

思考题

问题1：什么是固定全部模型参数的Frozen方式？（解决）

答案：冻结不需要更新的参数

问题2：什么是bitfit？有什么好处？（解决）

答案：bitfit的主要思想是改变某些层中的bias参数

问题3：在Prefix Tuning之前的工作主要是人工设计离散的模版或者自动化搜索离散的模版，什么是离散的模板？（解决）

答案：离散的模板在自然语言处理（NLP）任务中，尤其是在与预训练语言模型交互时，是指以自然语言文本形式编写的固定提示或框架，用来引导模型生成特定的输出。这种模板是由人类直接设计或通过自动化方法生成的，由于其离散性和固定性，称为“离散的模板”。离散性是因为它们由固定的、不可分割的自然语言单元组成，具有明确的边界，并且在使用时作为一个整体来使用，不可分割。

问题4：什么是Prefix Tuning？有什么好处？（解决）

答案：指的是在输入数据的前面加上可以预训练的向量，在整个过程中进行迭代

问题5：同时，这种Prefix实际就是连续可微的Virtual Token（Soft Prompt/Continuous Prompt），相比离散的Token。什么是连续可微的Virtual Token？什么是离散的token？（解决）

答案：定义1：离散的Token是自然语言文本中单词或子词（subword）的离散表示。它们是自然语言的符号化表示，每个Token对应于特定的词或子词。定义2：连续可微的Virtual Token是一种可训练的向量表示，它不对应具体的词语或子词，而是作为模型输入的一部分，通过训练来优化，以实现特定的任务。这些向量是连续的，并且可以通过梯度下降等优化方法进行微调。

问题6：什么是hard prompt，什么是soft prompt？（解决）

答案：hard prompt：指的是用自然语言提供的提示词，例如”请给我写一段python程序“ soft prompt：指的是连续可微的，可以用梯度下降算法进行优化的向量，这些向量一开始是初始化的，需要经过数据集来进行训练的，训练完成了之后就变成了提示词。具体有：prefix tuning和prompt tuning

问题7：什么是Prompt Tuning？有什么好处？（解决）

答案：和Prefix Tuning类似，但是Prompt Tuning可以添加到输入数据的各个位置，不仅仅是前缀。

问题8：什么是消融实验？（解决）

答案：可以说消融实验在某种程度上借鉴了控制变量法的思想。虽然两者应用在不同的领域和上下文中，它们的核心思想——通过系统性地改变某些因素来研究其对整体结果的影响——是相似的。

问题9：与随机初始化和使用样本词汇表初始化相比，Prompt Tuning采用类标签初始化模型的效果更好。什么是样本词汇表初始化？什么是类标签初始化？（未解决）

答案：为了解决问题9，来举个例子，对于情感分析，

样本1：今天天气真好；样本2：我的心情很糟糕。

样本词汇表初始化会提取真好和糟糕作为初始化条件，来初始化相应的virtual token

类别初始化会用类别正面和负面作为初始化条件，来初始化相应的virtual token

问题10：Prefix Tuning和Prompt Tuning有什么区别？（解决）

答案：见问题4和问题7

问题11：文章2主要讲了什么内容？结构是什么样的？有什么认知性的启发性收获？（解决）

答案：主要讲了bias、prefix tuning、prompt tuning是什么以及技术原理是什么，没有认知上的收获

关注

18
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
大模型微调--文章2

答案：冻结不需要更新的参数答案：bitfit的主要思想是改变某些层中的bias参数答案：离散的模板在自然语言处理（NLP）任务中，尤其是在与预训练语言模型交互时，是指以自然语言文本形式编写的固定提示或框架，用来引导模型生成特定的输出。这种模板是由人类直接设计或通过自动化方法生成的，由于其离散性和固定性，称为“离散的模板”。离散性是因为它们由固定的、不可分割的自然语言单元组成，具有明确的边界，并且在使用时作为一个整体来使用，不可分割。答案：指的是在输入数据的前面加上可以预训练的向量，在整个过程中进行迭代。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。