- 博客(86)
- 资源 (5)
- 收藏
- 关注
原创 深度解析DeepSpeed-Chat RLHF:PPO阶段代码详解(2)
Critic model、Reward model: 开始的时候这两个模型是一样的,但是用途是不一样的,一个是用来产生 critic value,一个是用来产生 reward 的,虽然结构是一样的。整个流程下来,我的感觉,很繁琐,难训练,所以目前主流大模型很少使用原始的这套 RLHF 流程,更多使用 dpo 算法,而且 RLHF 的数据有限,很难对所有的 response 有一个公平的 rewar,所以下一个系列文章会介绍利用 dpo 的 RLAIF 算法,如 SPIN、self-reward etc。
2024-07-21 21:32:50
734
原创 GPT与大语言模型探索:开启视觉图像智能新时代
这种定义使得AI算法能够通过与环境互动来学习,恰好符合AGI的定义:与环境互动,并且最大化奖励。相较而言,CV就没有形成清晰的路线:既没有环境用于预训练,各种算法也并不能在实际环境中解决问题。显然,这背离了CV和AGI的基本原则。
2024-07-21 21:32:06
534
原创 PyTorch实现标签到One-Hot编码的步骤解析
代码:输出:注意:label的形状必须是[n,1]的,也就是必须是二维的,且第二个维度长度为1,如果是一维度的,则需要升维度,代码如下:
2024-07-21 21:31:34
258
原创 深度解析:Transformer模型实现——以tensor2tensor为例
00], [000…看代码,其中的m_a目前先不用管,设置为None,可以看看到qkv可以通过函数compute_attention_component_v1函数,这个函数的就是一个矩阵乘法,第一个参数为输入数据(1,7,1024),第二数据为希望得到的维度k,即(1,7,k),在这里我们假设维度没有被压缩,k依然是1024,那么每一个qkv的维度都是(1,7,1024),接下来我们需要进行分头,那么qkv的维度就会变为(1,7,16,64),16是head,1024被分为16份后变成64。
2024-07-16 09:07:25
870
原创 深度解析:Transformer模型实现——以tensor2tensor为例
00], [000…看代码,其中的m_a目前先不用管,设置为None,可以看看到qkv可以通过函数compute_attention_component_v1函数,这个函数的就是一个矩阵乘法,第一个参数为输入数据(1,7,1024),第二数据为希望得到的维度k,即(1,7,k),在这里我们假设维度没有被压缩,k依然是1024,那么每一个qkv的维度都是(1,7,1024),接下来我们需要进行分头,那么qkv的维度就会变为(1,7,16,64),16是head,1024被分为16份后变成64。
2024-07-16 09:06:06
861
原创 深入探索RAG模型:从基础到微调实践
在上文中,我们了解到大模型在广泛应用中,会伴随着出现一些问题,所以出现了RAG,解决大模型问题的另一种途径就是Fine-Tune。微调(Fine-Tune),简单来说就是在较小的特定数据集上对其进行进一步训练的过程。既然出现了2种以上的解决方案,那在我们大模型的应用过程中,就会伴随着一个问题出现:当开箱即用的预训练LLM没有按预期或希望执行时,如何提高LLM应用的性能的问题。最终我们会问自己:我们应该使用检索增强生成(RAG)还是模型微调来改善结果?
2024-07-16 09:05:25
777
原创 深入探索RAG模型:从基础到微调实践
在上文中,我们了解到大模型在广泛应用中,会伴随着出现一些问题,所以出现了RAG,解决大模型问题的另一种途径就是Fine-Tune。微调(Fine-Tune),简单来说就是在较小的特定数据集上对其进行进一步训练的过程。既然出现了2种以上的解决方案,那在我们大模型的应用过程中,就会伴随着一个问题出现:当开箱即用的预训练LLM没有按预期或希望执行时,如何提高LLM应用的性能的问题。最终我们会问自己:我们应该使用检索增强生成(RAG)还是模型微调来改善结果?
2024-07-16 09:04:55
567
原创 手把手教你搭建大模型RAG:Llama-2、PgVector与LlamaIndex实战解析
检索增强生成(RAG)模型是传统语言模型与信息检索组件的融合。从本质上讲,RAG利用外部数据(通常来自大型语料库或数据库)来增强大语言模型生成过程,以产生更知情和上下文相关的响应。
2024-07-16 09:03:28
700
原创 飞浆AI Studio实战:探索Prompt优化艺术——十大技巧与策略
此外,电影通过对主角阿甘的刻画,也展现了人生中的善良和坚韧,让观众更能够感受到生命的关好和意义。总的来说,《肖申克的教赎》是一部非常优秀的电影,它的情节、主题和基调、演技和角色、方向、配乐。《阿甘正传》是一部经典的电影,它的情节、主题和基调、演技和角色、方向、配乐、电影摄影、制作设计、特效、剪辑、节奏、对话等方面都十分出色。画一幅画,呆萌的小猫躺在大泡泡中,可爱温柔,动漫风格,暖系色调,居中,面对镜头,虚幻引擎,棉花糖质感,光线追踪,极致细节,质感细腻,8K,超高清,超广角,极致清晰,丁达尔效应。
2024-07-13 21:36:57
807
原创 TensorFlow入门:Fashion_MNIST数据集初步分类实践
2.导入tensorflow和tf.keras。2.导入tensorflow和tf.keras。8.编译模型(损失函数、优化器、评价方式)4.导入fashion_mnist数据集。4.导入fashion_mnist数据集。**1.导入模块,统一编码。7.构建模型,设置网络层。12.图像预测结果和显示。1.导入模块统一编码。
2024-07-13 21:36:25
106
原创 「ChatGPT热浪 」:大模型时代,通用人工智能的崭新纪元
ChatGPT目前人工智能领域实在是IT界火热的名字,使IT、互联网又火热了一把,与以往不同,这次着实让模型、算法、AI、大模型、超大规模训练、千亿级参数等不绝于耳。作为一个入门,下面进行一些简单的学习总结。
2024-07-13 21:35:52
866
原创 Python实战:GBDT算法深度解析与二元分类应用
如果你还不是很熟悉GBDT的基本原理,请参考以下两篇博文GBDT(梯度提升树)基本原理及python实现GBDT原理详解。
2024-07-10 22:38:17
385
原创 PyTorch实现BERT预训练模型转化指南
回车后会有一大堆提示,然后发现路径下多了一个bin文件,加上原本的config 和vocab就够用啦。把箭头处路径改为自己放原有tf版本预训练模型的路径。
2024-07-10 22:37:45
279
原创 AIGC实战:LLaMA2模型训练全攻略——从代码到推理,附Kaggle实战链接
I/O# data# modeldim = 288# systemI/Oout_dir: 模型训练输出路径。eval_interval: 多少个训练步骤后进行一次模型评估。log_interval: 多少个训练步骤后进行一次日志记录。eval_iters: 在进行模型评估时,评估器将处理多少个数据集条目。eval_only: 如果为 True,则仅进行一次模型评估并退出脚本。always_save_checkpoint: 如果为 True,则在每次模型评估后始终保存一个检查点。
2024-07-10 22:37:13
782
原创 PyTorch实战:字符级Seq2Seq翻译模型与Attention机制解析
前些天学了seq2seq和transformer,然后用机器翻译练习了一下,今天这篇博客就讲讲带注意力机制的seq2seq模型怎么做机器翻译。
2024-07-08 08:26:10
786
原创 探索多模态预训练:MAnTiS、ActionCLIP、CPT与CoOp的Prompt技巧
不过它受到了AutoPrompt的启发会更多一些,前面的一些工作的Prompt方式都是基于人工模版(如xxx is [label]),连续型自动模版的Prompt会是更加不错的选择。,CLIP中用到Prompt的地方也是它处理句子-图像对的方式,如下图所示,dog 这一label会被改造成 “A photo of a dog”,然后被mask,再尝试通过模型算内积相似度来预测出这个词,也就能做好分类了,由于是生成句子的感觉,所以其实CLIP是十分适合做zero-shot 的分类的。
2024-07-08 08:25:36
722
原创 PyTorch模型转换实战:无缝迁移到Keras
我们知道Pytorch采用的是动态图机制,非常有利于进行算法框架的快速开发以及相关验证,但是目前Pytorch直接应用于产品上还存在一定的不确定性,因此目前产品上主要还是采用基于Tensorflow或者Theano的成熟框架,正好keras作为对上述两种框架的成熟封装具有很好的适用性,可以方便的切换后端,用以使用Tensorflow、Tneano、CNTK 的backend;像上面这样的,将LeNet实例化 pytorch_network。如果转换成功则两者的输出应当一致。
2024-07-08 08:25:03
225
原创 ChatGPT4深度解析:探索智能对话新境界
对于其他未在此列表中的特征,考虑到我们有多个特征,我们可能需要基于模型的反馈进行进一步的处理。问题:结合上文,列举出30个新的组合特征,包含10个高阶特征,20个普通组合特征,组合特征的组合思路和物理含义是什么?问题:结合上文,使用修改后的数据,对train表进行异常值分析和处理,分别给出每列数据的处理方法和原因。问题:结合上文,使用修改后的数据,对train表进行相关分析和处理,分别给出每列数据的处理方法和原因。变量的分布显示它是右偏的,大多数房屋的价格处于中低价范围,而高价范围的房屋较少。
2024-07-07 08:30:17
274
原创 Spring Boot中集成DJL运行Python PyTorch模型:MNIST实战
Java 使用 DJL 训练模型:https://blog.csdn.net/xundh/category_11361043.html?DJL官网:https://docs.djl.ai/index.html。
2024-07-07 08:29:35
301
原创 深度学习:探索大模型微调策略——Adapter, Prefix, Prompt & LoRA调优解析
2022年11月30日,ChatGPT发布至今,国内外不断涌现出了不少大模型,呈现“百模大战”的景象,比如ChatGLM-6B、LLAMA、Alpaca等模型及在此模型基础上进一步开发的特定领域的大模型。今年3月15日,GPT-4发布后,也出现了一些多模态的大模型,比如百度的文心一言、讯飞星火认知大模型等等。
2024-07-07 08:29:01
985
原创 高效微调神器:LLaMA工具,一键优化ChatGLM-2、LLaMA-2等大模型
LLMs:LLaMA Efficient Tuning(一款可高效微调【全参数/LoRA/QLoRA】主流大模型【ChatGLM2/LLaMA2/Baichuan等】的高效工具【预训练+指令监督微调+奖励模型训练+PPO 训练+DPO 训练】)的简介、安装、使用方法之详细攻略LLaMA Efficient Tuning的简介。
2024-07-06 22:18:41
617
原创 「深度解析」ChatGPT2:无监督多任务学习的语言模型(2019)
以下是我阅读完整篇论文做的个人总结,包含了ChatGPT-2文章的主要内容,可以仅看【论文总结】章节。GPT-2论文的核心内容,可以用一句话进行总结:那就是在GPT模型的基础上,作者提升了模型大小和训练数据集大小,结果发现GPT-2可以自动适应并完成NLP不同领域的任务目标的学习。举个例子来说,我们同时给一个固定的语言模型输入日常对话文本和新闻报道文本的数据集,并且这个数据集足够大、模型足够大、训练时间足够长。
2024-07-06 22:18:08
730
原创 TensorRT实战:离线环境配置与模型量化详解(二)
接下来以Bloom模型为例,进行 TensorRT-LLM 开发实践。build.py:用于构建 TensorRT 引擎来运行Bloom模型。run.py:模型推理。:使用模型来总结 CNN Dailymail 数据集中的文章。:将HF格式的模型进行转换。支持 FP16支持 INT8 & INT4 仅权重量化支持 INT8 KV CACHE 量化支持SmoothQuant 量化支持张量并行大模型量化概述进行过简要概述,后续有时间更详细的梳理常见的一些大模型量化技术。
2024-07-06 22:17:35
856
原创 GPT模型探索02:揭示GPT家族与提示学习的奥秘
GPT-3的关键创新在于提出了In-Context Learning概念, 可以理解提示并根据上下文进行回答,例如在问答任务中,只需在prompt提供问题及一个QA示例,GPT-3就可以学习回答同类问题,在千亿级参数量级的模型上,In-Context Learning 的能力才初步显现,可以从5-10个示例中获取新任务和概念信息。GPT-2 继承 GPT-1的设计思路, 通过扩大模型和数据集规模, 优化模型结构, 给出了一个更强大的预训练语言模型, 显示了该方向的发展前景。这就是思维链提示的基本实现方法。
2024-07-02 09:37:34
598
原创 PyTorch深入解析:理解model.bin与training_args.bin的差异
则包含了训练模型时使用的各种训练参数的配置信息。这两个文件在训练和推理过程中都具有重要的作用。是与 PyTorch 框架和训练过程相关的两个文件。包含了经过训练的模型的权重参数,而。
2024-07-02 09:36:30
228
原创 PyTorch实战OCR:CRNN与CTC Loss详解——深度学习图像转文字(2)
文章目录一、CRNN(卷积递归神经网络)1.1 CRNN介绍与网络结构1.1.1 网络结构二、网络结构详解2.1 CNN2.2 Map-to-Sequence2.3 RNN2.3 CTC Loss2.3.1 序列合并机制2.3.2 训练阶段2.3.3 划分标准2.3.4 CRNN总结结一、CRNN(卷积递归神经网络)1.1 CRNN介绍与网络结
2024-07-01 21:08:53
199
原创 高效管理GPT模型:FastGPT-Admin实用指南
是一个轻量级但功能强大的GPT模型管理平台,提供API接口和Web界面,用于模型的训练、评估、部署和实时推理。项目的目标是让开发者和数据科学家可以更专注于模型开发本身,而不必担心底层的复杂性。易用性:Web界面和API设计简洁,上手快。灵活性:支持多种训练策略和扩展,适应多样化需求。高效性:通过Docker化和微服务架构实现资源优化。安全性:内置的安全措施保护模型和数据不被滥用。FastGPT-Admin为GPT模型的管理和应用提供了一个高效且用户友好的解决方案。
2024-07-01 21:08:19
256
原创 Python开发新助力:ChatGPT与Mock框架的结合运用
Python Mock平台是一个功能强大的开发和测试工具,可以模拟和替换Python应用程序中的各种外部依赖关系,如API调用、数据库交互、文件系统访问等等。使用Python Mock,开发人员可以快速创建稳健的单元测试和集成测试,并完全控制每个测试的上下文和结果。
2024-07-01 21:07:47
200
原创 使用ChatGPT提升Python性能:CUDA编程实战
Python是一种简单易学的高级编程语言,而NVIDIA CUDA是一种基于GPU的并行计算平台。两者结合,可以实现高性能计算,Python可以做到数据处理方便快捷,而CUDA则以其强大的并行计算能力获得了更好的性能。PythonCUDA正是将两者结合的高性能计算工具。
2024-06-29 10:41:23
321
原创 使用PyTorch高效读取二进制数据集进行训练
使用pickle制作类cifar10二进制格式的数据集使用pytorc框架来训练(以猫狗大战数据集为例)此方法是为了实现阿里云PAI studio上可视化训练模型时使用的数据格式。
2024-06-29 10:40:51
257
原创 理解GPT2:无监督学习的多任务语言模型
为什么可以这么讲呢?当预训练规模足够大时,把无监督的任务训练好了,有监督的下游任务即不再需要额外训练,就是所谓的 “Zero-Shot”。基于 Transformer 解码器的 GPT-1 证明了在特定的自然语言理解任务 (如文档分类等) 的标注数据较少的情况下,通过充分利用好大量的无标注的数据,也能取得很强的性能。注意到,GPT 之前在做这一步的时候,是在自然的文本上面训练的。个人理解,GPT-2本身做的是GPT-1中的预训练,但是在一个更大的数据集上,用更大的模型通过自监督的方式学到了任务无关的特性。
2024-06-29 10:40:20
842
原创 PyTorch实战:利用Ray Tune优化模型参数配置(一)
借助Ray-tune可以对pytorch自动调参,下面就一步步地改写,从原始的训练代码慢慢变为可以自动调参的代码的教程•。
2024-06-28 22:12:06
348
原创 使用EasyEdit库操作ChatGLM2:KN方法在大模型改造中的实践
人工智能中的LLM火遍全网,渗透到我们生活的各个领域。大模型(下称LLMs)的缺点却也更加明显,如LLMs知识的滞后性、LLMs可能存在的“幻觉”等问题。模型编辑(Model Editing)应运而生,在LLMs纠错、LLMs数据更新等方向都有一定启发。本文,我们将借助EasyEdit库,使用经典的Knowledge Neurons方法对ChatGLM2进行知识编辑,初步认识模型编辑。敲敲黑板,开搞!!!!
2024-06-28 22:11:34
716
原创 【浦语开源】深入探索:大模型全链路开源组件 InternLM & Lagent,打造灵笔Demo实战指南
(其中有一个提示是要求设置私钥口令passphrase,不设置则为空,这里看心情吧,如果不放心私钥的安全可以设置一下)执行结束以后会在。根据之前介绍的模型下载的三种方式都可以实现模型的下载,但是速度相对较慢,这里我使用的是。Lagnet是智能体构建的工具,基础模型可以直接使用InterLM模型,无需重复下载。num_gpus 指的是使用gpu的数量,vgpu-smi可以查看gpu的使用情况。文件,输入以下命令后,l利用SSH密钥将端口映射到本地。环境之后,使用以下命令从本地克隆一个已有的。
2024-06-26 08:52:26
1099
原创 大模型LLM:探索其神奇的涌现能力
涌现: 许多小实体相互作用产生了大实体,大实体展现了组成它的小实体所不具有的特性大语言模型的规模效应:下游任务表现-伸缩法则&&涌现能力左侧任务:随着参数规模增大,知识的增长,效果越来越好例如:多数据清洗和转换、基于维基数据的知识问答、语言映射、日期理解、虚构语言翻译、单位转换任务右侧任务:涌现能力的一种体现,在参数规模小的时候体现一种随机性,看不出来有没有效果。大部分是由多步构成的一个复杂任务例如:词性消歧、国际音标转写、周期表元素识别、修改后的算术、重复复制逻辑、单词反混淆。
2024-06-26 08:51:53
257
原创 移动端AI绘图新突破:2秒文字转图像,Stable Diffusion模型引领潮流;Stability AI发布Uncrop Clipdrop,一键扩展图片边界
(2)推理步数上的优化:众所周知,扩散模型在推理时是一个迭代的去噪过程,迭代的步数越多,生成图片的质量越高,但时间代价也随着迭代步数线性增加。起初,AI 作图需要几天,再缩减到几十分钟,再到几分钟,出图时间在不断加速,问题是,究竟快到什么程度,才会在专业的美术从业者甚至普通大众之间普及开来?比如横图变竖图,竖图变横图等。(1)UNet 结构上的优化:通过分析原有 UNet 的速度瓶颈,本文提出一套 UNet 结构自动评估、进化流程,得到了更为高效的 UNet 结构(称为 Efficient UNet)。
2024-06-26 08:51:11
673
原创 悟道2.0引领新纪元:全球最大智能模型发布,谷歌KELM融合知识图谱预训练解析
由中国计算机学会主办的前沿讲习班《大规模预训练模型》,对大规模预训练技术最新研究进展及在视觉、语音、语言等多种模态下的预训练进行系统性介绍,帮助了学员理解预训练的基本概念、主要挑战和解决方法,掌握该领域包括视觉预训练、语音预训练、语言预训练以及多模态预训练的一系列前沿技术,并通过实际案例了解预训练的应用前景,开阔科研视野,增强实践能力。基于此,来自阿德莱德大学、同济大学、字节跳动的研究者设计了一种简单且有效的密集自监督学习方法,不需要昂贵的密集人工标签,就能在下游密集预测任务上实现出色的性能。
2024-06-25 08:47:56
864
优质毕设-绘画学习平台微信小程序设计实现-后台基于ssm框架实现
2024-06-21
优质毕设-外籍人员管理系统微信小程序设计实现-后台基于ssm框架实现
2024-06-21
优质毕设-电子竞技信息交流平台微信小程序设计实现-后台基于ssm框架实现
2024-06-20
优质毕设-4S店客户管理系统微信小程序设计实现-后台基于ssm框架实现
2024-06-20
优质毕设-在线课堂微信小程序设计实现-后台基于ssm框架实现
2024-06-20
优质毕设-外卖小程序微信小程序设计实现-后台基于ssm框架实现
2024-06-19
优质毕设-课堂助手微信小程序设计实现-后台基于php框架实现
2024-06-19
优质毕设-商品展示微信小程序设计实现-后台基于ssm框架实现
2024-06-19
优质毕设-电子商城购物平台微信小程序设计实现-后台基于ssm框架实现
2024-06-18
优质毕设-助农扶贫微信小程序设计实现-后台基于ssm框架实现
2024-06-18
优质毕设-英语学习交流平台微信小程序设计实现-后台基于ssm框架实现
2024-06-18
优质毕设-阅读网站微信小程序设计实现-后台基于ssm框架实现
2024-06-15
优质毕设-小说阅读器微信小程序设计实现-后台基于ssm框架实现
2024-06-15
优质毕设-校园二手平台微信小程序设计实现-后台基于ssm框架实现
2024-06-15
优质毕设-原创音乐平台微信小程序设计实现-后台基于ssm框架实现
2024-06-14
优质毕设-移动学习平台微信小程序设计实现-后台基于ssm框架实现
2024-06-14
优质毕设-汽车保养系统微信小程序设计实现-后台基于ssm框架实现
2024-06-14
优质毕设-童装商城微信小程序设计实现-后台基于ssm框架实现
2024-06-13
优质毕设-个人行政复议在线预约系统微信小程序设计实现-后台基于ssm框架实现
2024-06-13
优质毕设-点餐应用微信小程序设计实现-后台基于ssm框架实现
2024-06-13
优质毕设-在线投稿系统微信小程序设计实现-后台基于ssm框架实现
2024-07-16
优质毕设-智能社区服务微信小程序设计实现-后台基于ssm框架实现
2024-07-16
优质毕设-马拉松报名系统微信小程序设计实现-后台基于ssm框架实现
2024-07-16
优质毕设-购物系统微信小程序设计实现-后台基于php框架实现
2024-07-02
优质毕设-四六级词汇学习微信小程序设计实现-后台基于ssm框架实现
2024-07-02
优质毕设-追星小程序微信小程序设计实现-后台基于ssm框架实现
2024-07-02
优质毕设-音乐室预约微信小程序设计实现-后台基于ssm框架实现
2024-07-01
优质毕设-乐室预约微信小程序设计实现-后台基于ssm框架实现
2024-07-01
优质毕设-畅阅读微信小程序微信小程序设计实现-后台基于ssm框架实现
2024-07-01
优质毕设-高校体育场管理系统微信小程序设计实现-后台基于ssm框架实现
2024-06-26
优质毕设-校园外卖平台微信小程序设计实现-后台基于ssm框架实现
2024-06-26
优质毕设-微信小程序电影订票系统微信小程序设计实现-后台基于ssm框架实现
2024-06-26
优质毕设-校园二手交易平台微信小程序设计实现-后台基于ssm框架实现
2024-06-25
优质毕设-云上考场微信小程序设计实现-后台基于ssm框架实现
2024-06-25
优质毕设-网上商城微信小程序设计实现-后台基于ssm框架实现
2024-06-25
优质毕设-消防隐患在线举报微信小程序设计实现-后台基于ssm框架实现
2024-06-24
优质毕设-培训机构客户管理系统微信小程序设计实现-后台基于ssm框架实现
2024-06-24
优质毕设-居住证申报系统微信小程序设计实现-后台基于ssm框架实现
2024-06-24
优质毕设-私家车位共享系统微信小程序设计实现-后台基于ssm框架实现
2024-06-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人