- 博客(6)
- 资源 (10)
- 收藏
- 关注
原创 ChatGLM3与LoRA训练的深入探讨
ChatGLM3是基于Transformer架构的对话生成模型,具有强大的文本理解和生成能力。更大的参数量:ChatGLM3拥有更多的参数,使其能够捕捉更复杂的语言模式和上下文信息。多模态能力:除了文本输入,ChatGLM3还支持图像等多模态输入,增强了模型的应用场景。3. 更好的上下文理解:通过改进的训练策略,ChatGLM3能够更好地理解上下文,从而生成更连贯和相关的回复。LoRA(Low-Rank Adaptation)是一种高效的模型微调方法,旨在减少大模型微调所需的计算资源和存储空间。
2024-09-12 08:54:03
1047
转载 ChatGLM3-6b for mac 本地安装记
在运行之前需要先把chatglm3-6b模型文件夹下也就是model文件夹下的condfig.json中的_name_or_path对应的路径改成自己本地模型路径,对应demo内的模型路径(MODEL_PATH)改成自己本地下载的chatglm3-6b模型的路径。安装成功后创建虚拟环境 anaconda就是为了创建虚拟环境用的 不同的虚拟环境可以安装不同的python版本和pytorch版本。conda安装成功后开始下载大模型的代码 大模型的代码和模型是分开的,主要是模型比较大放一起不便于管理。
2024-09-04 09:56:46
1178
原创 unbuntu下安装chatglm2-6b记 训练篇(二)
今天给大家介绍下大模型训练涉及的"早停"大模型训练早停(Early Stopping) 是一种防止模型在训练过程中过拟合的技术。过拟合通常发生在训练过程中,模型在训练数据上表现非常好,但在验证集或测试集上表现较差,原因是模型过度“记忆”了训练数据中的细节和噪声,而没有学到更广泛的模式。早停技术的核心思想是通过在模型的性能开始下降之前停止训练,从而提高模型的泛化能力。简单的理解就是我们预定训练轮数是100轮,在学习到第50轮的时候模型在学习已经没有明显的提高,这时候为了防止出现噪声所以要提前停止学习的一种方法
2024-09-04 09:12:21
1076
原创 unbuntu下安装chatglm2-6b记 训练篇(一)
大模型数据集”通常指用于训练大规模机器学习模型,特别是深度学习模型(如大型语言模型、计算机视觉模型等)的大量数据集合。随着模型规模的增加,训练这些模型所需的数据量也相应增加,因此需要使用非常庞大的数据集。本篇我就给大家详细说下在服务器下的如何进行chatglm2-6b的模型训练。这可以在内存受限的情况下模拟更大的批次大小。设置训练的总轮数为100轮。学习率设置为0.0001,这是一个相对较小的学习率,适合微调。训练参数主要调整 训练轮数、学习率、数据集的大小等。训练代码的关键点在于训练参数 ,内存调整。
2024-09-03 14:40:48
782
原创 unbuntu下安装chatglm2-6b记(二)
这里有个问题 下次在启动的时候 一定要先启动虚拟环境不然的话就会像这张图这样子。模型启动后 报内存错误 加载到cpu很大问题都是显存不足造成的。1:模型运行后无法访问 参考这几个步骤进行解决。这里cursor的代码能力非常不错。先贴出安装后的遇到的问题。
2024-09-03 14:24:46
351
原创 unbuntu下安装chatglm2-6b记(一)
由于本人最近在研究大模型 ,所以这篇文章会写出在安装中遇到的详细步骤及相关问题,不说了上干货。下载完成后并安装pytorch 安装这个的时候一定要进入虚拟环境安装 不然该安装到外部环境里了。我的显卡驱动是4090ti 12g 理论上应该跑的起来,后面我会在后续的微调文章里详细解答。下面事优化后的代码 如果显存不足的可以参考我下面的代码 如果显存足就按原始代码运行就可以了。如果安装中遇到下图这个问题 基本就是版本的太低的问题了重装个新的版本。然后执行安装 安装的时候确保是在虚拟环境 这个目录下。
2024-09-03 14:12:40
1120
XML 中文参考手册
2010-05-31
ASP.NET2.0轻松搞定统计图表.doc
2010-06-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人