- 博客(9)
- 收藏
- 关注
原创 指令微调
微调数据集采用 ChatGLM3 对话格式约定,对不同角色添加不同loss_mask从而在一遍计算中为多轮回复计算loss。对于数据文件,样例采用如下格式如果仅希望微调模型的对话能力,而非工具能力,您应该按照以下格式整理数据。},},},},// ...请注意,这种方法在微调的step较多的情况下会影响到模型的工具调用功能如果您希望微调模型的对话和工具能力,您应该按照以下格式整理数据。
2024-06-24 05:45:29 867
原创 LoRA微调
它冻结了预训练的模型权重,并将可训练的秩分解矩阵注入Transformer架构的每一层,从而大大减少了下游任务的可训练参数数量。LoRA 是一个非常重要的可调优结构,简单来说,就是增加了一个额外可训练部分,比如原来的 Linear 的矩阵是 MxN 维,增加一个 LoRA,该 LoRA 会包含两个参数量较少的矩阵:Mxd, dxN,这两个矩阵相乘后仍然是 MxN 维的,训练时原 MxN 矩阵冻结,只训练 LoRA 的两个矩阵,参数量就会大大减少。训练过程中冻结参数𝑊0,仅训练A和B中的参数。
2024-06-24 05:43:39 797
原创 RAG中的重复文档问题
在使用 LangChain 打造的知识库系统时,我们首先要进行知识库文档的上传,在上传文档的过程中有时候会上传一些重复内容的文档(文件名不同,内容相同),或者是上传一些类似的文档(文件名不同,内容不同),这些文档会导致我们的知识库中存在大量的重复文档,这些重复文档会影响我们的知识库检索效果。如果我们使用普通的检索功能,检索出与问题最相关的 2 个文档,那么第一个和第二个文档都会被检索出来。,我们希望在收集的评价中可以听到尽可能多的声音,以便我们可以对系统进行改进,但相似的评价会阻碍我们看到更多不同的反馈。
2024-06-24 05:42:14 327
原创 streamlit
streamlit提供了多种函数用于显示不同类型的消息,以呈现不同级别的通知和反馈。用于显示错误消息。通常用于向用户报告发生的错误或异常。用于显示警告消息。通常用于向用户提供潜在的问题或需要注意的情况。用于显示一般信息消息。可以用于提供一般性的信息或指导。用于显示成功消息。通常用于向用户报告任务或操作成功完成。用于显示异常消息。当发生异常时,可以使用此函数将异常信息呈现给用户。这些函数提供了一种直观的方式来向用户传达不同类型的信息,并帮助改善用户体验。
2024-06-24 05:40:58 976
原创 山东大学软件学院项目实训_模型训练
监督式微调:Supervised Fine-Tuning AdamW 权重衰减是针对权重(weights)而不是参数的梯度(gradients)进行的。(如果学习率过高,模型可能会在损失函数的表面跳跃,导致训练过程不稳定,甚至可能无法收敛;LoRA秩:8 较高的秩可能允许模型捕捉更复杂的任务特定特征,但也可能导致过拟合。(LoRA 用于平衡低秩适配模块的输出与原始模型输出的组合。LoRA 随机丢弃:0.1 随机地将低秩矩阵A的一些元素置为零。学习率调节器:余弦退火(Cosine Annealing)
2024-06-23 21:05:49 254
原创 山东大学软件学院项目实训_文书数据集设计与构建规范
数据集严格按照Alpaca模型数据集格式组织,分为Instruction,input,output三部分。样例文书绿色框部分,即判决结果部分(“本院认为:” 之后),作为数据集output。每人构造至少70条上述数据,要涵盖刑事、民事、行政判决书(刑事、民事为主),选择。样例文书中红色框部分为开庭信息部分,计划不通过大模型生成,在应用层面设置方法。注意是“经法庭审理查明”后的一段话,并非“某某人民检察院控告:”或其他。一审判决书(一般低级法院一审判决比较多,可以多选基层);样例文书蓝色框部分为案情事实,
2024-05-29 16:23:38 369
原创 山东大学软件学院项目实训项目_大模型自我认知训练
提供的构造自我认知数据集的方法,通过LLaMA-Factory对模型进行lora微调,使其具备了新的自我认知。
2024-05-04 00:06:37 352
原创 面向专业人士的中文法律文书生成系统-大模型应用开发博客(项目进度及开发日志只在本博文更新,其他博客为技术报告)
与此同时,我们注意到,在面向专业人士的中文法律文书生成领域,仍有较大的创新空间:通用大模型为保证其在不同领域的高性能,其生成内容(或预测结果、对话内容)往往不会严格符合中文法律文书的语言习惯;在通用领域,以OpenAI的GPT系列,国内的通义千问、智谱AI等为代表的一系列大模型已经具有较高的预测性能和符合自然语言规范的对话习惯,也已经做了较为成熟的模型推理服务化工作,形成了Web应用等供用户访问;基础模型:ChatGLM-6B https://github.com/THUDM/ChatGLM-6B。
2024-03-27 20:41:51 525
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人