LLM：ChatGLM-6B模型进行P-Tunning训练记录及参数讲解

最新推荐文章于 2024-09-14 16:23:11 发布

u013250861

最新推荐文章于 2024-09-14 16:23:11 发布

阅读量195

点赞数

分类专栏： # LLM/经典模型文章标签：人工智能

本文链接：https://blog.csdn.net/u013250861/article/details/132197886

版权

LLM/经典模型专栏收录该内容

38 篇文章 27 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文记录了使用ChatGLM-6B模型进行P-Tuning训练的过程，包括安装依赖、数据准备、训练脚本参数解析、训练步骤以及遇到的问题。重点介绍了欠拟合、泛化能力、收敛性和梯度爆炸等概念，并分享了初步结论和未来尝试的方向。

摘要由CSDN通过智能技术生成

模型训练

首先说明一下训练的目的：提供本地问答知识文件，训练之后可以按接近原文语义进行回答，类似一个问答机器人。

步骤

安装微调需要的依赖：

pip install rouge_chinese nltk jieba datasets

准备训练数据集：

数据集需要jsonline的格式，如果是单轮对话，需要设置输入输出两个字段（字段名可自定义，在训练脚本中通过参数指定即可），如果是多轮对话，需要额外指定历史字段。

以单轮对话为例：

{"question":"南京未来菁英训练营的报名年龄？","answer":"9-15岁，向下浮动2岁，向上浮动3岁。"}
{"question":"南京未来菁英训练营的接待标准是？","answer":"住宿：211高校、正餐餐标45元/人（5荤5素1汤1主食）。"}

准备训练脚本：tran.sh

PRE_SEQ_LEN=64
LR

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

u013250861

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

订阅专栏

LLM - ChatGLM-6B (General Language Model) 的工程配置

Mystra

06-29

2685

ChatGLM是通用的预训练语言模型（General Language Pretraining Model），基于自回归空格填充（Autoregressive Blank Infilling）的方法，可以兼容三种主流的预训练框架：自回归模型（如GPT）、自编码模型（如BERT）和编码器-解码器模型（如T5）。GLM 通过添加二维位置编码和允许任意顺序预测文本片段，提高了空格填充预训练的效果。同时，GLM可以通过调整空格的数量和长度，来适应不同类型的任务，包括自然语言理解、有条件和无条件的文本生成。

ChatGLM-6B ptuning训练配置

qq_50719891的博客

06-04

解压缩后放在ptuning目录下。3、修改train.sh。

参与评论您还未登录，请先登录后发表或查看评论

ChatGLM-6B 部署与 P-Tuning 微调实战-使用Pycharm实战

chengjinpei的博客

07-26

2674

国产大模型Chatglm微调实战

现在LLM 的大小为什都设计成6/7B、13B和130B几个档次？

zenRRan的博客

06-25

159

知乎：真中合欢链接：https://www.zhihu.com/question/627258986/answer/3262812950答案简单，就是匹配显存。6B模型可以在在12/16/24G显存的消费级显卡部署和训练。如果一个公司的模型不打算在消费级显卡部署，通常不会训6B这个规模。而且通常还会有一个1.4b或者2.8b，这个是比较适合在手机、车载端量化部署的尺寸。13B模型按照4k长度组织数...

【LLM】chatglm-6B模型训练和推理

qq_41918762的博客

09-02

1359

本篇文章记录下 chatglm-6B 训练和推理过程环境：Ubuntu 20.04 + 1.13.0+cu116。

（二）ChatGLM-6B模型部署以及ptuning微调详细教程

西风瘦马

04-09

2万+

ChatGLM-6B模型训练，ptuning微调，大语言模型，LLM

LLMs之ChatGLM-3：ChatGLM3/ChatGLM3-6B的简介—“对话格式”功能介绍(推理系统如何解析参数/采用Python代码形式/编写工具调用的代码/Manual Mode)、推理演

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

11-10

6847

LLMs之ChatGLM3：ChatGLM3/ChatGLM3-6B的简介—“对话格式”功能介绍(推理系统如何解析参数/采用Python代码形式/编写工具调用的代码/Manual Mode)、推理演示(Chat/Tool/Code Interpreter)、微调(AdvertiseGen/ToolAlpaca)实现之图文教程攻略目录相关文章 ChatGLM3的“对话格式”功能的简介及其使用方法 ChatGLM3的推理演示 ChatGLM3的微调

【ChatGLM】基于 ChatGLM-6B + langchain 实现本地化知识库检索与智能答案生成: 中文 LangChain 项目的实现开源工作

热门推荐

程序员光剑

05-21

6万+

陈光剑简介：著有《ClickHouse入门、实战与进阶》（即将上架）《Kotlin 极简教程》《Spring Boot开发实战》《Kotlin从入门到进阶实战》等技术书籍。资深程序员、大数据与后端技术专家、架构师，拥有超过10年的技术研发和管理经验。现就职于字节跳动，曾就职于阿里巴巴，主要从事企业智能数字化经营管理、电商智能数字化运营等系统架构设计和研发工作。在大数据和企业级系统架构领域有非常深厚的积累，擅长大数据系统架构和分布式系统架构设计开发。

大模型部署-使用Triton+TensorRT-LLM部署ChatGLM3-6B大模型-附项目源码+流程教程-优质项目实战

07-07

大模型部署_使用Triton+TensorRT-LLM部署ChatGLM3-6B大模型_附项目源码+流程教程_优质项目实战

ChatGLM-6B LLM大模型使用；P-Tuning微调；prompt角色扮演history；web streamlit交互页面

weixin_42357472的博客

04-24

1923

大模型chatglm 安装使用

【LLM】离线部署ChatGLM-6B模型

提笔忘字的帝国

04-28

4290

甲方出手，天下我有🤩。让我们看看GPU参数吧😍输入命令：（如果报了未找到命令的话需要给显卡驱动目录添加进环境变量，自行百度）nvidia-smi我滴乖乖，49G显存爱了爱了~

昇腾910b部署Chatglm3-6b进行流式输出【pytorch框架】NPU推理

懒惰是科技进步的原始动力

01-08

4695

解决chatglm输出乱码，No such file or directory: "*.safetensors"

LLM 大模型学习必知必会系列(一)：大模型基础知识篇

丨汀、的博客

05-09

900

LLM 大模型学习必知必会系列(一)：大模型基础知识篇

大语言模型LLM参数微调：提升6B及以上级别模型性能（LLM系列009）

North_D的博客

02-27

1149

大型语言模型（简称为LLM），特别是在6B参数级别及其以上的模型，在当今自然语言处理（NLP）领域中占据了前沿地位，凭借其卓越的语言理解和生成能力，在多种应用场景中彰显出无与伦比的优势。这类模型通常通过大规模未标注文本数据的自监督学习完成初步构建，形成对语言深层次结构的理解。然而，为了使其更好地适应具体任务要求，参数微调成为了解锁其潜在价值的核心步骤。本文将深入探讨LLM参数微调的理论基础与实际操作方法，并通过实例说明如何对6B参数级别的开源模型进行微调，进而显著提升特定任务的性能表现。

生成式人工智能在新加坡的发展现状和地位

wukangjupingbb的博客

09-11

959

依据国际隐私专业人员协会(IAPP)的相关报告，2020年，上述两机构更新了该模型框架，发布了第二版，并推出了《组织实施和自我评估指南》，帮助组织评估其人工智能治理实践与型框架的匹配程度，还发布了《案例汇编》，展示了组织如何实施负责任的人工智能治理实践。2019年，金融管理局宣布与金融行业合作创建Veritas框架，为金融机构提供可验证的方法，将FEAT原则纳入其人工智能和数据分析驱动的解决方案中。新加坡在人工智能治理方面采取了部门性的方法，即通过各个行业的监管机构来管理人工智能的使用。

Djourney新手入门基础，AI摄影+AI设计+AI绘画-AIGC作图

最新发布

DAMOXINGHAITAI的博客

09-14

785

（全套教程文末领取哈）从大模型系统设计入手，讲解大模型的主要方法；在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；以SD多模态大模型为主，搭建了文生图小程序案例；以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

从AI到大数据，数字技术服务平台全栈赋能企业升级

smjt2024的博客

09-11

558

海量的数据中蕴含着丰富的信息和价值，数字技术服务平台能够收集、整理和分析这些数据，为企业提供精准的市场洞察和决策支持。企业可以通过参加树莓集团举办的培训课程和研讨会，了解最新的数字技术趋势和应用案例，提升自身的数字技术水平。从技术咨询、解决方案设计到系统实施和运维，数字技术服务平台为企业提供一站式的服务，让企业无需担心技术难题，专注于自身的核心业务。树莓集团的数字技术服务平台，以其先进的技术、专业的服务和丰富的经验，为企业提供了全栈赋能。在数字时代，让我们共同利用数字技术服务平台，开启企业升级的新篇章。

chatglm2-6b langchain

09-05

ChatGLM2-6B是开源中英双语对话模型ChatGLM-6B的第二代版本，它的性能更强悍。之前我们教过使用LangChain和ChatGLM-6B来实现个人专属知识库，而现在我们可以使用ChatGLM2-6B来构建个人专属知识库。要使用ChatGLM2-6B和LangChain，你需要进行一些配置，包括修改configs/model_config.py文件中的embedding_model_dict和llm_model_dict参数。在llm_model_dict中，你需要将LLM名称改为chatglm2-6b，并在pretrained_model_name中指定ChatGLM2-6B的模型路径。完成配置后，就可以启动项目并使用chatglm2-6b和LangChain来进行对话了。123 #### 引用[.reference_title] - *1* *2* *3* [LangChain + ChatGLM2-6B 搭建个人专属知识库](https://blog.csdn.net/sj5590155/article/details/131720160)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]