LLM模型的一些思考

巴基海贼王

已于 2023-06-20 20:32:06 修改

阅读量313

点赞数

文章标签： nlp

于 2023-06-15 20:39:28 首次发布

本文链接：https://blog.csdn.net/weixin_43343486/article/details/131235414

版权

                    
                    对通用LLM模型进行Fine-tuning操作（SFT，supervised fine tuning），带来的影响往往是有害的？从表象看，使用领域数据对LLM做Fine-tuning，通常会造成灾难性的“灾难遗忘”问题。简单点儿说，SFT在赋予对领域知识理解能力的同时，由于修正模型参数，导致模型遗忘之前学会的某些知识。
目前的“智能=压缩”的理论是否正确？LLM的压缩能力是否可以拆解成单个神经元的“压缩”能力，又或者说是Transformer的压缩能力，非线性的attention替换成类线性的attention时对“压缩”能力是否有积极作用？
在深层次的Transformer模型中，随着layer不断往上走：通过Attention把上文中与自己有关的信息集成到Embedding中，而每层的FFN对Embedding做变换以增加信息，不断触发FFN里存储的知识并逐层Refine对应的Embedding；从生成式任务loss角度看，链式的log交叉熵损失与这种现象是否符合？
用现有的已知现象解释过去的未知原因，这种穷举可能性的方式是否合理：LLM中，相同问题的不同表述在拆解成COT时，往往在LLM的网络中走相似、相近更或者相同的“子回路”，对于这种观测现象，是否可解释为与人思维决策与脑回路间的等价对应？\
增大基座模型的参数量+轻量化加速微调（lora，qlora）是否能够好于全量微调较小的模型
 （未完成……）

巴基海贼王

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
LLM模型的一些思考

对通用LLM模型进行Fine-tuning操作（SFT，supervised fine tuning），带来的影响是否有害？从表象看，使用领域数据对LLM做Fine-tuning，通常会造成灾难性的“灾难遗忘”问题。简单点儿说，SFT在赋予对领域知识理解能力的同时，由于修正模型参数，导致模型遗忘之前学会的某些知识。
复制链接

扫一扫