ChatGPT
文章平均质量分 80
才 神
探索人工智能在心理健康中的应用
展开
-
归纳头可能是任何大小的Transformer模型中通用ICL能力的来源
最近读了的一篇长文(确实非常长),叫做,觉得写的非常好,看到中文互联网应该还没有这个文章的中文翻译,也怕自己忘掉,所以读到哪就翻译到哪,做一个记录。大部分内容靠GPT翻译,我在其基础上做术语和逻辑的修正,有些地方中文没法特别好地表达出来,我会附带原文用词。有些地方原文就很抽象,我会注明自己的理解。转载 2024-03-22 13:13:46 · 289 阅读 · 0 评论 -
中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒杀人类,Hinton预言成真?
Hinton认为,AI已经或将要有情感。随后的研究不断证明,Hinton的说法或许并不是博人眼球的妄言。有心理学家对ChatGPT和人类进行了情绪测试,结果表明,ChatGPT的得分要远远高于人类。无独有偶,中国科学院软件研究所和微软等机构的研究人员最近设计了一种EmotionPrompt。他们发现,转载 2023-09-08 14:37:24 · 204 阅读 · 0 评论 -
大语言模型推理与部署工具介绍
本项目中的相关模型主要支持以下量化、推理和部署方式,具体内容请参考对应教程。原创 2023-09-07 17:25:39 · 927 阅读 · 1 评论 -
大模型入门(六)—— RLHF微调大模型
所以价值的计算如下:核心是下面的delta的计算,除了考虑到当前的时刻的奖励值,还考虑到了未来时刻的输出的奖励值nextvalues(只不过这里的奖励值是由critic网络直接输出的每个token对应的分数)。从上图可以看出,给定一个输入x,会生成两个文本y11和y22,一个来自于初始的模型,另一个来自于微调的模型,微调的模型生成的文本还会进入到奖励模型中打分输出rθ,而初始模型和微调的模型生成的结果会用KL散度约束它们的分布,确保模型不会太偏离原来的模型,并且能输出高质量的回复。原创 2023-06-15 17:47:53 · 5221 阅读 · 0 评论 -
大模型入门(五)—— 基于peft微调ChatGLM模型
值得注意的是,在使用deepspeed训练时,在加载chatglm模型时需要注意,chatglm模型加载默认是使用pytorch中的skip_init初始化,会将参数先加载到meta device上,这种情况就无法使用deepspeed。,可以通过transformers中的Autoxxx类加载。经过中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术,ChatGLM因为是中文大模型,在中文任务的表现要优于LLaMa,我在一些实体抽取的任务中微调ChatGLM-6B,都取得了很不错的效果。原创 2023-06-15 17:43:03 · 2235 阅读 · 0 评论 -
大模型入门(四)—— 基于peft 微调 LLaMa模型
库中的deepspeed方法,zero-3会将模型、梯度、优化器参数都分割到不同的GPU,并且使用cpu offload将一些中间变量放到cpu上,经实测使用两张GPU时,每张GPU的使用大概5个G多一点,单张卡的batch size可以设置到8,但是在实际训练过程中速度比DDP还要慢一点,这里的原因还是因为模型并行、CPU offload等带来了大量的通信工作,所以单张gpu能存放一整个模型时还是首推DDP。单GPU训练很好理解,训练的时候只要注意下面的一段代码即可,混合精度训练+梯度累积。原创 2023-06-15 17:39:54 · 6227 阅读 · 1 评论 -
大模型入门(三)—— 大模型的训练方法
属于数据并行的范畴,但又很不一样,在ZeRO中会将模型参数、优化器参数、梯度等分片到不同的GPU上,ZeRO的方法可以配合张量并行或者流水线并行一起使用,但在配合TP或者PP时,通常只启用优化器参数的分片,其他的分片可能会带来不好的效果。每个tensor被分割成多块(根据场景按行或者列分割)存储在不同的GPU上,每个GPU单独计算,最后同步汇总到一块,类似于transformer中的多头,假如每个头的计算都在一张单独的gpu上,计算完后将所有gpu的结果concat到一起再分发到每张gpu上。原创 2023-06-15 17:34:21 · 11336 阅读 · 2 评论 -
大模型入门(二)—— PEFT
最后微调时只调整前缀的参数,大模型的参数保持不变。保存时只需要为每个任务保存重参数的结果即可。一般在通过Prompt的方式使用大模型时,通常需要人工构造一些模板,P-tuning将自然语言模板的构建转换成连续参数优化的问题,用一些特殊的token替代人工构造的自然语言模板,让模型自己去学习这些连续的token,在学习的过程中只微调这些token的embedding参数,并且为了保证token之间的联系,并不是随机初始化embedding,而是通过lstm层学习这些token的embedding。原创 2023-06-15 17:35:19 · 1427 阅读 · 0 评论 -
从GLM-130B到ChatGLM:大模型预训练与微调
前面是类似bert的mask,后面自回归的预测mask的词。130B,8台80G,24台40G。一个数据过四遍就效果不太好了。原创 2023-06-15 17:28:10 · 371 阅读 · 0 评论 -
万字长文:大模型训练避坑指南
自 2022 年 11 月底 ChatGPT 发布以来,大模型的热度持续发酵,相信高屋建瓴的讨论大家已经看了很多了。今天我们选择从实用角度,分别就算力、算法、工程、数据和团队等方向讨论了训练一个千亿参数量级的大语言模型和 ChatGPT 需要些什么,希望能够给正在尝试拥抱大模型的业务决策者和技术人员一些有价值的参考。主持人:Kiwi,AI 领域投资人本期嘉宾介绍:冠叔,野路子 AI 产品经理,操盘过大量 AI 业务龙老师,大模型算法工程师,开源过超过 20 个预训练模型算法欣然,AI 全栈工程师,做过芯片、原创 2023-06-15 17:20:03 · 1237 阅读 · 0 评论 -
大语言模型中的涌现现象是不是伪科学?
深度学习在理论上的孱弱一直被诟病,但科学史上存在大量先有应用再有理论的事例,而其中不能解释的重大实验现象往往预示着理论创新的契机。我们首先从现象出发,来看下LLM中最神秘的emergent ability,如图上图中x、y轴分别表示模型规模和模型效果。研究员们至今无法给出令人信服的解释,为什么主流的大型模型在规模超过10^22级别后,效果会突然大幅提升。这个问题非常重要,有可能搞清楚这个问题,就能终结追求AGI路上的统计和符号的路线之争。转载 2023-06-11 21:45:36 · 173 阅读 · 0 评论 -
OpenAI 用于辅助治疗的 GPT-4:AI 如何彻底改变心理健康护理
人工智能(AI)改变了我们生活的方方面面,从娱乐和教育到医疗保健。人工智能最有前途的应用之一是在心理健康领域,它可以帮助数百万患有抑郁症、焦虑症、创伤后应激障碍 (PTSD) 和物质使用障碍等各种疾病的人。在这篇博文中,我们将探讨OpenAI的GPT-4,一种可以接受文本和图像输入并为用户发出文本返回的大型多模态模型,如何用于辅助治疗和支持有心理健康问题的人。翻译 2023-06-11 18:21:26 · 760 阅读 · 0 评论 -
ChatGPT模型微调翻译及注释
对于此用例,过去的相同对话可以在数据集中生成多行,每次的上下文略有不同,每次代理生成都作为完成。你的作业可能排在我们系统上的其他作业后面,训练我们的模型可能需要几分钟或几小时,具体取决于模型和数据集大小。这通常被称为“少镜头学习”。如果要对预先存在的数据集进行微调,而不是从头开始编写提示,请确保尽可能手动查看数据中是否有令人反感或不准确的内容,或者如果数据集很大,则尽可能多地查看数据集的随机样本。其他训练参数不必更改,但是,如果新的训练数据比以前的训练数据小得多,您可能会发现减少 2 到 4 倍很有用。翻译 2023-04-18 14:48:09 · 681 阅读 · 1 评论