- 博客(58)
- 收藏
- 关注
原创 ChatGLM-6B tuning 推理源码解析
对象、加载预训练模型和分词器,转换模型表示为半精度浮点数,并最终返回配置好的 PEFT 模型。这些操作涉及到模型配置、分词器的加载、模型的加载和转换等步骤,用于准备和配置 PEFT 模型的环境。对象、加载预训练模型和分词器,转换模型表示为半精度浮点数,并最终返回 PEFT 模型。这些操作涉及到了模型配置、分词器的加载、模型的加载和转换等步骤,用于准备和配置 PEFT 模型的环境。在函数中,创建了一个。方法从指定路径的预训练模型加载预训练的模型,并使用。方法从指定路径的预训练模型加载预训练的模型,并使用。
2023-06-22 09:15:27
629
原创 ChatGLM-6B源码解析 之 web_demo.py
这段代码的主要目标是使用预训练的ChatGPT模型("THUDM/chatglm-6b")来构建一个基于web的交互式聊天机器人。这些代码行加载了名为"THUDM/chatglm-6b"的预训练模型和它的tokenizer。方法将模型的数据类型转换为半精度浮点型,这可以在GPU上加快计算速度。是用来自动加载对应的模型和tokenizer的方法。是将markdown转换为html的工具。是一个NLP库,提供了很多预训练模型。是用于构建交互式UI的库,而。方法将模型移动到GPU上。设置模型为评估模式。
2023-06-21 18:11:04
3214
4
原创 全参数finetune Ziya-LLaMA-13B相关模型,目前支持数据并行+张量并行+ZeRO
这个示例主要用于全参数finetune相关模型,目前支持数据并行+张量并行+ZeRO。
2023-06-21 17:52:49
1340
1
原创 RM奖励模型用到的Elo评分系统
你现在是大学教授,请详细讲述Elo排名,用公式表示Ra:A玩家当前的RatingRb:B玩家当前的RatingSa:实际胜负值,胜=1,平=0.5,负=0Ea:预期A选手的胜负值,Ea=1/(1+10^[(Rb-Ra)/400])Eb:预期B选手的胜负值,Eb=1/(1+10^[(Ra-Rb)/400])因为E值也为预估,则Ea+ Eb=1Elo排名系统是一种用于计算玩家相对技能水平的方法,通常用于竞技型游戏和运动比赛中。
2023-06-16 17:42:33
1090
1
原创 Reward Modelling(RM)and Reinfo
精选 原创©著作权文章标签文章分类阅读数Reward Modelling(RM)and Reinforcement Learning from Human Feedback(RLHF)for Large language models(LLM)技术初探。
2023-06-16 17:03:58
1013
原创 ChatGPT/InstructGPT详解
GPT系列是OpenAI的一系列预训练文章,GPT的全称是,顾名思义,GPT的目的就是通过Transformer为基础模型,使用预训练技术得到通用的文本模型。目前已经公布论文的有文本预训练GPT-1,GPT-2,GPT-3,以及图像预训练iGPT。据传还未发布的GPT-4是一个多模态模型。最近非常火的ChatGPT和今年年初公布的[1]是一对姐妹模型,是在GPT-4之前发布的预热模型,有时候也被叫做GPT3.5。
2023-06-16 16:33:26
578
原创 信息量、相对熵(KL散度)、交叉熵
举个例子,如果我们要预测一个公正的硬币的结果,每次抛掷的结果都是无法预测的(正面或反面的概率各为0.5)。也就是说,每次抛掷都会带来。而如果硬币是偏的,比如正面的概率是0.9,那么每次抛掷的结果就比较容易预测,带来的新信息量就小一些。相反,如果一个事件发生的概率很大,甚至接近确定,那么它就不会给我们提供什么新的信息,所以它的信息量就很小。对数函数的性质是,当0 < P(x) < 1时,log(P(x))是负数。,通常在信息论中,我们使用的是以2为底的对数,这样得到的。小的事件更能提供一些新的、未知的信息。
2023-06-16 14:49:13
310
原创 LLaMA, ChatGLM, BLOOM的参数高效微调实践
本文首先从训练数据、tokenizer和模型结构细节上对比了LLaMA、ChatGLM和BLOOM这三个主流的开源大语言模型,并介绍了这三个基座模型的衍生模型;接着详细介绍了不同大语言模型在tokenizer、layer normalization、激活函数和位置编码的模型细节;然后讲述了prompt tuning、prefix tuning、LLaMA- adapter和LoRA这些参数高效微调方法;最后对比了不同基座语言模型和不同微调方法的效果。
2023-06-16 14:32:34
1584
原创 个人建站3, 阿里云备案:系统检查:该产品类型不能绑定备案服务码 telnet测试端口 xxx.41.21.xx 9999
才可以申请出备案服务码,用于域名备案申请 阿里云产品不同能够申请出的免费备案服务码个数不同,一个备案服务码,备案一个域名,不可以重复使用,使用过的同样不可再次使用。您好,咱这边是域名备案咨询的,服务器带宽购买以及端口的问题需要转接至相关同事, 若您的服务器后续需要备案的话,需要您做的是。是因为您的服务器是按量付费的不符合要求,ecs服务器需要满足: 服务器位于阿里云中国内地节点。您好,关于您备案的时候,提示:“系统检查:该产品类型不能绑定备案服务码的问题。(包含续费) 需购买公网带宽才能申请免费的服务码。
2023-06-15 16:11:56
2972
原创 UniLM详解,统一语言模型(Unified Language Model,UniLM)
预训练模型按照训练方式或者网络结构可以分成三类:一是以BERT[2]为代表的自编码(Auto-Encoding)语言模型,它使用MLM做预训练任务,自编码预训模型往往更擅长做判别类任务,或者叫做自然语言理解(Natural Language Understanding,NLU)任务,例如文本分类,NER等。二是以GPT[3]为代表的自回归(Auto-Regressive)语言模型,它一般采用生成类任务做预训练,类似于我们写一篇文章,自回归语言模型更擅长做生成类任务。
2023-06-15 14:17:49
2212
原创 Bert和T5的区别
在 skip-gram 的训练阶段,它学习预测给定单个单词作为输入的周围特定数量的单词。但该模型的主要局限在于,对给定单词的预测将仅基于有限数量的周围单词。另一方面,self-attention 不仅会检查句子中的所有其他单词,还会赋予它们一定程度的重要性。SA(‘article’) = “article”这个词与句子中其他词之间的关系量 (SA = Self-attention)。在该过程的最后,我们将为每个单词获得一个向量,其中包含代表单词及其与其他单词的关系的数值。预测中使用的标记(单词)的大小。
2023-06-14 17:31:13
1363
原创 T5全称是Text-to-Text Transfer Transformer,使用文本生成的方式来解决各种自然语言处理任务,例如机器翻译、摘要、问答等。
本文主要介绍了两类可以用于零样本文本分类的模型。基于自然语言推理的零样本分类模型:适用于对模型推理时间不敏感的低资源文本分类场景,在抹零战役工单分类任务中,表现出了优异的性能。基于文本生成的零样本学习模型:适用于对模型推理时间要求较高的低资源本文分类场景,同时还能进行其他任务的零样本学习。而本文介绍的模型在分类场景下进行了特定的数据增强,大幅提高了分类的稳定性,相比于其他模型更加适合应用于零样本文本分类场景。
2023-06-14 17:23:56
2338
原创 文化:游牧与农耕
中提到的冰河时期(the glacial period),以及工具制造(toolmaking)、陶器发明(pottery invention)、定居生活(settlement)、人口增加(population growth)等多种因素有关。,以及明于蒙古和清之间的关系就能看出,往往是农耕民族的朝代发展到末期,社会腐败,游牧民族便趁机南下,而当汉族的新朝代兴起,国家富强,游牧民族又重回北方,而游牧名族征服了农业地区后,为了稳定发展,也依旧农业化了。的原因,人类饲养动物和种植主要是为准备祭司用的贡品。
2023-06-13 11:53:36
144
原创 Reformer RoPE,旋转位置编码,关于Transformer当中的位置编码的优化考察
DeBerta矩阵的定义与T5相反,T5是去除了位置与token的交叉项,只保留相对位置产生的偏移矩阵,而DeBerta与之相反,它去除掉了相对位置产生的偏置矩阵,但是留下了两个位置与token之间的交叉项,并将之用相对位置矩阵的方式进行保留。如前所述,位置编码的核心就是给每一个位置添加一个具体的position embedding从而令attention层的输入可以识别出其具体的位置,但是由于句长的无限性所以限制了绝对位置编码的使用方法。,大概会去考虑这个问题的人就大幅减少了。
2023-06-09 10:35:52
1111
原创 LLaMA细节与代码解析
也就是说,假如当前输入的序列长度是512,那么截取出来的这个新的freqs_cis,形状就是(512, 64),reshape之后,形状就变成了(1, 512, 1, 32),也就是在每一个位置上,都对应有32个角度,根据刚刚torch.polar的介绍,当我们固定绝对值(也就是向量的模长)时,角度就可以在笛卡尔坐标系下唯一确定一个复数,这样一来也就是32个复数,即64个特征维度,所以就可以对应的将它融合到每个attention head的64个特征中去了。接下来是transformer模型的构建。
2023-06-09 10:03:54
1867
1
原创 Python 单例模式:使用函数装饰器实现单例;使用类装饰器实现单例;使用 __new__ 关键字实现单例;使用 metaclass 实现单例
很多初学者喜欢用,因为这比函数的参数传来传去更容易让人理解。确实在很多场景下用全局变量很方便。不过如果代码规模增大,并且有多个文件的时候,全局变量就会变得比较混乱。你可能不知道在哪个文件中定义了相同类型甚至重名的全局变量,也不知道这个变量在程序的某个地方被做了怎样的操作。因此对于这种情况,有种更好的实现方式:单例是一种设计模式,应用该模式的类只会生成一个实例。单例模式保证了在程序的不同位置都可以且仅可以取到同一个对象实例:如果实例不存在,会创建一个实例;如果。
2023-06-09 08:06:57
456
原创 零样本和少样本学习
零样本和少样本学习方法减少了对注释数据的依赖。因此对于新的领域和收集数据的困难的领域他们是很重要的。少样本(Few-Shot Learning FSL)是一种机器学习问题(由E, T和P指定),其中E只包含有限数量的例子,并带有监督信息。现有的FSL问题主要是监督学习问题。零样本学习(Zero-shot learning, ZSL)是机器学习中的一个问题解决方案,学习者在测试时从训练中没有观察到的类中观察样本,并预测他们所属的类。
2023-06-08 18:07:45
467
原创 Prompt+低代码开发实战
近期 AIGC 狂潮席卷,“前端走向穷途”“低代码时代终结”的言论甚嚣尘上。事实上 GPT 不仅不会干掉低代码,反而会大幅度促进低代码相关系统的开发。本文会介绍 GPT Prompt Engineering 的基本原理,以及如何帮助低代码平台相关技术快速开发落地的技术方案。接着往下看吧~1 提示工程1.1 提示工程基本概念1.2 如何使用 OpenAI/Chatgpt 做提示工程测试1.4 提示工程技巧-少样本提示(few shot)
2023-06-08 17:57:53
1297
原创 MAE ViT过程,随机选取75%的patch mask掉。将原始图像分块作为一个list,然后random shuffle一遍,选取shuffle后在list中排在后75%的 patch,将他们ma
这里需要注意的是,所有的mask的patch共同由一个可学习的向量表示,也即是所有的mask patch共享这个向量。(当然,对bert不了解也不影响看懂MAE在做什么,只是如果想挖的更深的话建议读一下BERT这篇论文)有一定的了解。当然,与BERT一致,这里只会去计算被mask部分的像素点的MSE。超过87%,一举超过了所有在ImageNet-21k上预训练的所有ViT极其变体的性能。4)将所有的patch送入decoder中,经过处理最终将token化的patch还原成图像形式。,将他们mask掉。
2023-06-08 12:10:40
501
原创 SAM,分割一切
为了解决输出模糊性问题(一个提示可能生成多个mask,比如衣服上的一个点,既可以表示衣服,也表示穿衣服的人),预测输出多个masks(发现**整体,部分,子部分**已经足够描述mask),在训练过程中,只回传最小的loss,为了对mask进行排序,增加一个小的head预测mask和目标的iou。同时,通过预测的iou筛选。当输入多个提示时,生成的mask会比较接近,为了减少loss退化和确保获取明确的mask,此时只预测一个mask(作为第4个预测mask,只有多个提示时才预测,当单个提示时不用)
2023-06-08 12:01:13
1147
原创 Quantized LLM ,GPTQ生成式预训练量化
今天自己量化了一个 LLaMA-13b-gptq-8,几乎是药到病除,效果立刻超越了 LLaMA-7b-fp16。模型越大,GPTQ 量化模型的精度损失越小,对性能的提升越高,感觉就跟免费的午餐一样。在 RTX 3090/RTX A6000 级别的显卡上,LLaMA-30B 和 LLaMA-65B 的推理性能几乎完全由模型尺寸和内存带宽决定。此外,默认的 GPTQ 加速库里面的累加使用的也是 fp32,而不是 fp16,而 pytorch 在默认的配置下使用 fp16 对矩阵乘法求和。
2023-06-08 10:39:01
2017
原创 HuggingFace - Vision Transformer (ViT) 模型在
— 在通过用于辅助预训练任务的层进一步处理后,序列的第一个标记(分类标记)的最后一层隐藏状态。通过对 Vision Transformers 进行预训练以重建大部分 (75%) 蒙版块的像素值(使用非对称编码器-解码器架构),作者表明这种简单的方法优于微调后的监督预训练。, Jakob Uszkoreit, Neil Houlsby. 这是第一篇在 ImageNet 上成功训练 Transformer 编码器的论文,与熟悉的卷积架构相比取得了非常好的结果。(图像转换器的 BERT 预训练)。
2023-06-08 08:17:58
3067
原创 ViT基本原理,图像预训练
ViT作者团队出品,在CNN和Transformer大火的背景下,舍弃了卷积和注意力机制,提出了MLP-Mixer,一个完全基于MLPs的结构,其MLPs有两种类型,分别是和,前者独立作用于image patches(融合通道信息),后者跨image patches作用(融合空间信息)。实验结果表明该结构和SOTA方法同样出色,证明了convolution和attention不是必要操作,如果将其替换为简单的MLP,模型依然可以完美work。
2023-06-08 07:45:25
4343
1
原创 CLIP对比文本-图像对的预训练:连接文本和图像,打造可迁移的视觉模型
2021年见证了vision transformer的大爆发,随着谷歌提出ViT之后,一大批的vision transformer的工作席卷计算机视觉任务。除了vision transformer,另外一个对计算机视觉影响比较大的工作就是Open AI在2021年1月份发布的DALL-E和CLIP,这两个都属于结合图像和文本的多模态模型,其中DALL-E是基于文本来生成模型的模型,而CLIP是用文本作为监督信号来训练可迁移的视觉模型,这两个工作也像ViT一样带动了一波新的研究高潮。这篇文章将首先介绍CLIP
2023-06-08 07:36:31
4444
2
原创 Colossal AI 并行技术
随着深度学习的发展,对并行训练的需求越来越大。这是因为模型和数据集越来越大,如果我们坚持使用单 GPU 训练,训练过程的等待将会成为一场噩梦。在本节中,我们将对现有的并行训练方法进行简要介绍。如果您想对这篇文章进行补充,欢迎在GitHub论坛上进行讨论。
2023-06-08 07:13:32
568
原创 Colossal-AI简介
图片来源:分布式系统由多个软件组件组成,在多台机器上运行。例如,传统的数据库运行在一台机器上。随着数据量的爆发式增长,单台机器已经不能为企业提供理想的性能。特别是在双十一这样的网络狂欢节,网络流量会出乎意料的大。为了应对这种压力,现代高性能数据库被设计成在多台机器上运行,它们共同为用户提供高吞吐量和低延迟。分布式系统的一个重要评价指标是可扩展性。例如,当我们在4台机器上运行一个应用程序时,我们自然希望该应用程序的运行速度能提高4倍。然而,由于通信开销和硬件性能的差异,很难实现线性提速。
2023-06-08 07:05:33
5129
原创 Bert base和 Bert large参数对比
=768, A(Attention 多头个数)=12,L(网络层数)=12,使用GPU内存:32G多。使用GPU内存:7G多。
2023-06-07 18:40:33
1451
1
原创 阿里云AIGC- 使用Megatron-Deepspeed训练GPT-2并生成文本
本文介绍如何使用GPU云服务器,使用Megatron-Deepspeed框架训练GPT-2模型并生成文本。GPT-2模型是OpenAI于2018年在GPT模型的基础上发布的新的无监督NLP模型,当时被称为“史上最强通用NLP模型”。该模型可以生成连贯的文本段落,并且能在未经预训练的情况下,完成阅读理解、问答、机器翻译等多项不同的语言建模任务。GPT-2模型尤其在文本生成上有着惊艳的表现,其生成的文本在上下文连贯性和情感表达上都超过了人们的预期。GPT-2模型由。
2023-06-07 16:06:50
1490
原创 AIGC - 文本生成视频大模型-英文-通用领域 (Text-to-video-synthesis Model in Open Domain)
训练数据包括LAION5BImageNetWebvid等公开数据集。经过美学得分、水印得分、去重等预训练进行图像和视频过滤。
2023-06-07 15:57:59
929
原创 阿里云部署ACGC - 文本生视频
发布后,AIGC(AI Generated Content,AI生成内容)时代正扑面而来,从单一的文字文本,演化到更丰富的图片、视频、音频、3D模型等。您应自觉遵守第三方模型的用户协议、使用规范和相关法律法规,并就使用第三方模型的合法性、合规性自行承担相关责任。首次执行脚本时,会通过公网自动下载所需模型库,100 Mbps带宽下载时间大约为20分钟,请耐心等待。创建完成后,在ECS实例页面,获取公网IP地址。当显示如下图所示的回显信息时,说明已下载完成。需要注意的参数如下,其他参数的配置,请参见。
2023-06-07 15:56:18
590
原创 CSDN技术博客运营技巧:等级说明和积分获取及等级对应的能开专栏数量
博客积分是CSDN对用户努力的认可和奖励,也是衡量博客水平的重要标准。博客等级也将由博客积分唯一决定。积分规则具体如下:1、每发布一篇原创或者翻译文章:可获得10分;2、每发布一篇转载文章:可获得2分;3、博主的文章每被评论一次:可获得1分;4、每发表一次评论:可获得1分(自己给自己评论、博主回复评论不获得积分);5、博文阅读次数每超过100次:可获得1分,阅读加分最高加到100分,即文章点击上万次截止;6、文章被管理员或博主本人删除,相应减去博主基于该篇博文所获得的分数。
2023-06-07 06:38:03
210
原创 马尔可夫过程
举一个实际例子比如说卖电脑,可能当初你买的电脑花了上万块钱,现在可能只值几百块钱了。我们在卖电脑的时候不会去考虑那个电脑过去值多少钱。而只是考虑当下的价值。再比如说流感病毒的传播,未来感染病毒的人数只依赖于目前感染病毒的人数,而与之前感染病毒的历史人数无关。这种已知“现在”的条件下,过程“将来”的演变与“过去”无关的性质,称之为。就是你的过去是什么样子不重要,未来只与自己当下的努力有关。具有无后效性的过程称为马尔科夫过程。而马尔科夫是这样的一类过程,即。未来只与现在有关,与过去无关。
2023-06-06 17:11:22
107
原创 StarCoder LLM for code
我们采取了几个重要步骤来实现安全的开放模型发布,包括改进的 PII 编辑管道、新颖的归因跟踪工具,并在改进版本的 OpenRAIL 许可下公开提供 StarCoder。我们相信,凭借其强大的性能,StarCoder 模型将成为社区使用它并使其适应其用例和产品的坚实基础。我们发现 StarCoder 和 StarCoderBase 的性能优于最大的模型,包括 PaLM、LaMDA 和 LLaMA,尽管它们要小得多。在流行的编程基准测试中优于现有的开放代码 LLM,并且匹配或超过封闭模型,例如。
2023-06-06 17:08:36
1050
原创 达到chatgpt 90%效果的llama,Chinese-Alpaca-Plus-13B合并使用全过程分享
基于llama的开源项目有很多,本次测试的是一个基于7b的llama二次训练的项目,本项目开源了中文LLaMA模型和指令精调的Alpaca大模型。这些模型在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,进一步提升了中文基础语义理解能力。同时,中文Alpaca模型进一步使用了中文指令数据进行精调,显著提升了模型对指令的理解和执行能力。在预训练阶段使用了20G中文语料的预训练。
2023-06-06 16:11:27
1513
原创 Cogvideo:通过变压器进行文本到视频的大规模预处理
一代中创建了里程碑。它在视频生成上的应用仍面临许多挑战:潜在的巨大计算成本使从头开始培训无法承受;文本视频数据集的稀缺性和弱相关性阻碍了理解复杂运动语义的模型。在这项工作中,我们提出了9B参数变压器COGVIDEO,通过继承验证的。我们还提出了多帧速率层次结构培训策略,以更好地对齐文本和视频剪辑。作为(可能)第一个开源大规模预处理的文本对视频模型,Cogvideo在机器和人类评估的较大范围内优于所有公开模型。经过大规模的变压器在文本(GPT-3)和文本形象(Dall-E和。
2023-06-06 16:07:46
441
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人