ChatGLM
文章平均质量分 88
才 神
探索人工智能在心理健康中的应用
展开
-
归纳头可能是任何大小的Transformer模型中通用ICL能力的来源
最近读了的一篇长文(确实非常长),叫做,觉得写的非常好,看到中文互联网应该还没有这个文章的中文翻译,也怕自己忘掉,所以读到哪就翻译到哪,做一个记录。大部分内容靠GPT翻译,我在其基础上做术语和逻辑的修正,有些地方中文没法特别好地表达出来,我会附带原文用词。有些地方原文就很抽象,我会注明自己的理解。转载 2024-03-22 13:13:46 · 32 阅读 · 0 评论 -
现有的通用模型中融入少量中文数据没有太大意义&少量的数据就能影响整个大模型
相关链接:只修改一个关键参数,就会毁了整个百亿参数大模型? | 新程序员-CSDN博客现象 1:mBERT 模型的跨语言迁移现象 2:大语言模型同样存在显著的语言对齐现象 3:知识与语言分离现象 4:语义和词形对齐现象 5:少量的数据就能影响整个大模型现象 6:大语言模型参数中记录了知识有明显的语言核心区现象 7:大模型语言核心区与维度依赖理论原创 2024-02-19 21:35:22 · 436 阅读 · 0 评论 -
一文看懂:如何充分高效训练多轮对话大模型
Firefly项目链接:https://github.com/yangjianxin1/Fireflyfirefly-ziya-13b权重:https://huggingface.co/YeungNLP/firefly-llama-13b该项目已支持对LLaMA-2、Baichuan、InternLM、Bloom、Ziya、LLaMA-1等开源大模型进行多轮对话指令微调。可以在16G显存上微调130亿的大模型,并且这套训练流程在Open LLM排行榜🤗上进行了验证,转载 2023-09-21 22:21:11 · 975 阅读 · 0 评论 -
LLaMA ChatGLM2 BLOOM模型技术分析对比
贝塔是常数或者可训练参数,Swish函数可以看做是介于线性函数与ReLU函数之间的平滑函数.转载 2023-09-08 17:05:34 · 2242 阅读 · 1 评论 -
Chinese-LLaMA-Alpaca-2模型的测评
以Chinese-LLaMA-2-7B为例,对比不同精度下的模型大小、PPL(困惑度)、C-Eval效果,方便用户了解量化精度损失。对战平台提供了胜率、Elo评分等评测指标,并且可以查看两两模型的对战胜率等结果。是另一个综合性中文评测数据集,专门用于评估语言模型在中文语境下的知识和推理能力,涵盖了从基础学科到高级专业水平的67个主题,共计11.5K个选择题。是一个大模型长文本理解能力的评测基准,由6大类、20个不同的任务组成,多数任务的平均长度在5K-15K之间,共包含约4.75K条测试数据。原创 2023-09-07 17:24:00 · 1105 阅读 · 1 评论 -
OpenAI独家绝技RLHF被开源DPO超越?让RLHF彻底傻瓜化!
实验表明了 DPO 可以微调 LMs 以对齐人类偏好,甚至比现有方法更好。值得注意的是,用 DPO 进行微调在控制生成结果的情感以及改善摘要和单轮对话的响应质量方面表现出更好的能力,同时在实现和训练时的难度大大降低。转载 2023-09-06 22:29:26 · 530 阅读 · 0 评论 -
让陪伴机器人不再「直男」,读懂更多情绪 | 香港理工大学李嫣然
导读:现实对话中,「多喝热水」、「早点睡」等直男语录让人啼笑皆非。从某种意义上说,现有的对话系统就好比「直男」,对于情绪的感受力较弱。因其仅仅根据文本表面的意义进行分类,无法理解文本背后更深层的意思,无法与对方实现真正的「共情」。如何提高陪伴机器人的共情能力,实现更专业、自然的情绪支持人机对话?香港理工大学李嫣然博士团队在这方面做了大量的工作。团队通过真人多轮情感支持对话中的中文语料数据挖掘语言背后的情绪流,进而针对AI的情绪探索和反馈能力等方面进行了有效地优化。转载 2023-07-16 15:06:15 · 453 阅读 · 0 评论 -
ChatGLM2-6B、ChatGLM-6B 模型训练自己数据集实战
ChatGLM-6B是开源的文本生成式对话模型,基于General Language Model(GLM)框架,具有62亿参数,结合模型蒸馏技术,实测在2080ti显卡训练中上(INT4)显存占用6G左右,原创 2023-07-10 10:00:07 · 4322 阅读 · 2 评论 -
DeepSpeed使用体会
Zero Redundancy Optimizer (ZeRO)是DeepSpeed的workhorse. 用户可以提供不同的ZeRO config文件,来实现DeepSpeed的不同功能特性。来看一下官网教程对ZeRO的描述:一句话总结:划分而不是复制。即,传统的深度学习,模型训练并行,是将模型参数复制多份到多张GPU上,只将数据拆分(如,torch的Dataparallel),这样就会有大量的显存冗余浪费。而ZeRO就是为了消除这种冗余,提高对memory的利用率。原创 2023-07-08 18:49:13 · 1276 阅读 · 0 评论 -
DeepSpeed-Chat 代码分析及使用详解
根据上面的分析,对模型微调的完整流程如下:数据部分读取tokenizer: 从预训练模型中读取tokenizer读取处理数据 train_dataset, eval_dataset设置 train_sampler, eval_sampler设置train_dataloader, eval_dataloader (使用DataLoader)模型部分设置DeepSpeed配置参数导入并实例化 model可选:LoRA设置。转载 2023-06-20 17:36:54 · 1749 阅读 · 0 评论 -
自定义模型与数据进行DeepSpeed-Chat训练
本文将演示如何在DS-Chat代码中使用除facebook opt之外的其他预训练模型,以及如何准备并使用自定义数据进行模型训练,以便训练出针对特定领域或应用的大型模型。本章的主要内容包括以下几点:实验设置介绍:我们将介绍本实验的设置,并为你介绍这样选择的原因,希望能够给你AI技术学习提供一个参考。如何替换模型:我们将介绍如何替换DS-Chat中使用的预训练模型以及如何将自己的预训练模型集成到DS-Chat中。转载 2023-06-20 17:25:55 · 1042 阅读 · 0 评论 -
大模型训练基本流程讨论
让pre-model自动化的生成模版,思路如下,fix主pre-train模型,让模型对有标注的任务做训练,模型学习后改的输入的句子embbeding,当然输入原句是不改的,只是让模型改非输入句子部分,最后就可以自动化的学习到最有prompt模版了。通常情况下,预训练模型的大小越大,它在各种任务上的表现也越好,但同时需要消耗更多的计算资源[1]。这张图表示的意思是,我还是我,但是我经过简单变化和学习后,我就可以成为多样不一样的我,但是pre-train模型是不动的,动的只是参入的参数,眼睛、一幅、装饰。转载 2023-06-20 15:06:14 · 6258 阅读 · 0 评论 -
P-Tuning v2: 与微调性能相等的提示性优化
提示微调,只用一个冻结的语言模型来微调连续的提示,大大减少了训练时每个任务的存储和内存使用。然而,在NLU的背景下,先前的工作显示,提示微调对于正常大小的预训练模型来说表现并不理想。我们还发现,现有的提示微调方法不能处理困难的序列标注任务,表明缺乏普遍性。我们提出了一个新的经验发现,适当优化的提示微调可以在广泛的模型规模和NLU任务中普遍有效。它与微调的性能相匹配,而只有0.1%-3%的微调参数。原创 2023-06-20 12:17:58 · 497 阅读 · 0 评论 -
[译] DeepSpeed:所有人都能用的超大规模模型训练工具
我们于今年 2 月份。这是一个开源深度学习训练优化库,其中包含的一个新的显存优化技术—— ZeRO(零冗余优化器),通过扩大规模,提升速度,控制成本,提升可用性,极大地推进了大模型训练能力。DeepSpeed 已经帮助研究人员开发了图灵自然语言生成模型(),其在发表时为世界上最大的语言模型(拥有 170 亿参数),并有着最佳的精度。我们在 5 月份——支持有着 2000 亿参数的模型训练,与最新技术相比,训练速度可达 10 倍——以及一系列计算、IO 和收敛优化功能,从而助力最快速的 BERT 训练。原创 2023-06-20 12:14:01 · 1176 阅读 · 0 评论 -
本地安装部署运行 ChatGLM-6B 的常见问题解答以及后续优化
如果你电脑内存实在捉襟见肘的话,可以选择直接使用现成的INT4量化模型,这样内存中只需要占用5.5GB左右了,使用GPU运行时,8G内存的电脑也可以一战了,使用CPU运行时,可以允许24GB甚至16GB内存的电脑运行,显著降低运行配置。比如将 Temperature 设置为 0.05 和 0.95 的主要区别在于,T=0.05 会使得模型更加自信,更加倾向于选择概率最大的类别作为输出,而 T=0.95 会使得模型更加不确定,更加倾向于输出多个类别的概率值较大。(你需要那个文件就改哪个文件,不需要全改)原创 2023-06-18 19:10:58 · 11629 阅读 · 4 评论 -
使用 CPU 本地安装部署运行 ChatGLM-6B 获得自己的专属 AI 宠物
ChatGLM-6B 是一个清华开源的、支持中英双语的对话语言模型,基于GLM架构,具有62亿参数。结合模型量化技术,ChatGLM-6B可以本地安装部署运行在消费级的显卡上做模型的推理和训练(全量仅需14GB显存,INT4 量化级别下最低只需 6GB 显存)虽然智商比不过 openAI 的 ChatGPT 模型,但是ChatGLM-6B 是个在部署后可以完全本地运行,可以自己随意调参,几乎没有任何审查限制,也几乎没有对话轮数限制的模型。ChatGLM-6B 模型用来调教成猫娘,魅魔什么的再合适不过了。原创 2023-06-18 19:02:53 · 2748 阅读 · 3 评论