自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(108)
  • 收藏
  • 关注

原创 OpenAI的Triton能替代Nvidia的CUDA吗

- 为 CUDA 平台定义自动调优配置。- 确定参考库为 cuBLAS。3.

2024-11-10 09:41:52 829

原创 投机采样的显性化——OpenAI新feature:Predicted Outputs

对用户的好处,那自然不必说,因为模型分为input和output token,你把本来应该output,token by token推理的output,给转成input了,input就可以prefill也就是玩kv-cache,也就可以被并行计算,那你说快不快,这也就节省了推理延迟,同时理论上,是省钱的,因为input token便宜,output贵。小模型生成了接下来的n个标记,然后在大模型上进行n个并行推理,具体为:Prompt,Prompt + ST1,Prompt + ST1 + ST2 …

2024-11-08 22:50:49 847

原创 Waymo的EMMA给多模态端到端自驾指引了方向

最近Waymo发的论请问你EMMA端到端确实在自动驾驶届引发了很大的关注,核心的原因是它采用的端到端模型是基于Gemini Nano的语言模型,目前看现在做端到端方案的,就它和特斯拉是语言模型为底座来实现多模态视觉输入的。端到端多模态自动驾驶的意思,不是艾玛电动车论文地址:2410.23262先看看他是怎么做的第一:感知层面,它纯视觉,没有雷达之类的输入。

2024-11-02 21:05:32 704

原创 纯研究O1的论文都发出来了,让我想起来研究红楼梦的红学

有点意思的论文 2410.13639简而言之就是曼彻斯特大学,浙大和中科大还有一些开源的项目组一些一起研究OpenAI O1的人,来发O1为什么牛B的论文正常,研究红楼梦毕竟也有红学(我是一集红楼梦也没看过,书和电视都没看过)。。。文章主要讲分析猜测和评估OpenAI的推理模式在不同任务上的效果同时也利用不同的模型比如GPT4o,Gemma,LLama, Qwen等尝试利用分析出来的O1的推理方式。

2024-10-29 19:23:55 882

原创 强化学习入门到不想放弃-5

也就是折扣系数,这个理解起来也不难,比如你做了一个动作不光对当前的state s有影响,也会对之后的state都会有影响,引申的含义就是当前的状态也会影响到之后状态所获得的奖励,但是当下的奖励的重要性一定会大于未来的奖励,γ的取值范围也是0到1(不能是1), 比如0.4,0.6,理论上越近折扣系数应该越高,这个也好理解,列成式子就是。圆形的有的有一个后续,有的有多个候选选择(概率),不同的action,有不同的奖励得分,比如刷facebook就扣1分-1,比如学习就加10分之类的。

2024-10-26 00:32:01 836

原创 GPT4o Realtime voice功能的复现路径

因为LLaMA-omni实际上在输入侧就一个voice input,但是文章里面的prompt其实也提示了,这里还有个text input的embedding,这就涉及到模态融合embedding的融合了,只不过这里做的特别巧妙,但是在GPT4o因为它的模态更多,更复杂,所以对模态的embedding要求更高,因为embedding不可能无限长,所以为了兼容视觉和语音,GPT4o的text embedding长度也被压缩了。

2024-10-16 15:14:08 679

原创 怎么理解Contextual-Retrieval ?(顺手讲一下prompt-cache)

如上面所示,原始得chunk,是两个"The",导致不管是embedding还是BM25都抓不出来它,那要是把original_chunk,通过某种手段,给转换成下面这种contextualized_chunk,把上下文信息给注入到chunk离,这下,如果还是刚才得问题,那必然是一问一个准。有人说用Hybrid RAG是不是能强点,比如上图,此时,你是加BM25 关键字,还是加Graph-RAG都没啥用,你懂得,因为回答是一系列得"The"指代,并没有和问题中得描述有关键字匹配,也没法建立节点和边得关系。

2024-10-10 23:28:47 1257

原创 强化学习入门到不想放弃-4

3- Reward:Agent默认如果对环境的规则没有任何概念的话,它是不知道如何做的,但是比如弄洒了水咋桌子以上,这种的行为,其实就是一个减分项,如果我们认为洒水要-100分,而把水擦干会得200分,那在之后Agent于环境的操作就不会洒水了,而发现别的水洒了,它会擦干,其实就有点像小孩对这个世界刚开始的认识差不多,是靠一些奖惩机制来了解世界的。2- Action:就是对环境执行的动作,Action对环境执行了动作以后,环境就改了,比如把水给洒桌子上了,那state 也就是环境的状态,也就变了。

2024-10-07 22:25:24 668

原创 CPU上推理矩阵乘不厉害,那么查表呢?MS的 新推理方法T-MAC

W(权重矩阵,int8): | 1 | -3 | 6 | | 4 | 8 | -4 | | 0 | 2 | -2 | A(输入激活矩阵,int8): | 4 | 1 | | -6 | 4 | | 3 | -5 |就是先把之前的矩阵打散,然后再给化成小的矩阵,比如都化成2*2的小矩阵,这样容易提升查找的命中率,然后为了优化内存的存储方式,再做一个permutation,最后可能就这样(随便举个例子)

2024-10-01 20:05:47 795

原创 神神叨叨的OpenAI和神神叨叨的草莓

原来的RL,它不是一点也学不到,但是它无法对每一步都研究的特透,有人可能拿围棋的AlphaGO跟我抬杠,这个例子其实不错,但是首先围棋它和你解决AGI这种通用问题不一样,第一它有严格的规则,而且理论上来讲就那么个棋牌,是有固定的讨论,所以你只要给它足够的把数,让它硬搞,它是能学到某些隐空间里定义的套路,但是对于NLP这种动辄就把人类社会的所有知识点都拿来pretrain的业务,你让它像Alpha Go这样死命练是不够的,更别提好多数据集了的答案甚至都是错的。也会对产出最终答案的正确性起到非常大的作用。

2024-08-29 17:14:26 1000

原创 详解MS的GraphRAG的实现流程

社区检测提供显式的社区结构,帮助我们在图谱中理解不同实体如何形成群体。图谱嵌入提供隐式的语义表示,增强图谱在查询阶段的搜索能力。提到Node2Vec大家可能比较乱,word2vec好理解,你把Node2Vec干么呢?那你想想你word2vec是为了干么呢?找语义相似性对不?那Node2Vec不也一样吗,近似的node会在隐空间距离更近,聚类不就好弄了么,其实就这么点事,看我的文章是不是一下子就明白了Phase4。

2024-08-21 15:35:33 1099 1

原创 如何优雅的薅羊毛之Flux.1免费使用还支持中文prompt

图非常好,中文进,出完美图,但是分辨率还是和刚才一样有点问题,不知道是不是API的问题,还是我使用API的问题,回头再看吧,反正可用。用这个方法,不管是任何DIFY原生不支持的API或者tool,都可以直接加入到DIFY的tools里面,还是挺方便的。然后创建一个4节点的工作流,在staret节点上,选择输入,我们这里写3个一个是prompt一个是模型的长一个是宽。图很好,分辨率有问题,似乎我写的512*512的*号在这里没被识别,无所谓了,一会再调。Claude干活很利索,直出,改我都懒得改,拿来就用。

2024-08-19 09:48:57 422

原创 你为什么要用GraphRAG?

在提取了元素实例之后,LLM还负责生成这些元素的摘要。每个节点或边的实例被独立地总结为一个描述块,这些描述块提供了对每个图元素的独立理解。对于每个社区,LLM生成一个社区摘要。这些摘要描述了社区内部所有节点和边的关系及其重要性。社区摘要可以用于后续的查询回答生成过程。

2024-08-18 10:54:18 993

原创 萝卜快跑和端到端的自动驾驶(1)

相当而言,下面的这个方式,比较好容易被接受,就是把感知,预测,决策这些模块在一个模型了,planning和control这些不用放在模型里执行,在模型外,可以写一些兜底的策略,比如紧急避障,紧急刹车,限速啥的。:跟踪模块持续监控并预测周围移动物体的位置和速度,例如其他车辆和行人,以便系统能够做出及时和准确的反应,避免碰撞。这是一个错误的理解,特斯拉的纯视觉方案在训练时有text指令的输入,所以它也是多模态的。比如如果你感知做的很垃圾,那么很不幸的是,你的跟踪,路径规划,决策啥的,都会受到影响。

2024-08-16 09:18:56 677

原创 英伟达的GPU(5)

上一章地址我们之前讲过了GPU的kernel,线程划分,内存管理这节我们讲一下多个GPU的通信从这张 NVLink 性能发展的图表可以看出,NVLink 技术自 2014 年以来经历了多次升级,性能不断提高。

2024-08-10 22:15:00 1121

原创 多模态MLLM都是怎么实现的(12)-Florence-2

前3个表是拿经过特定领域数据训练的模型和florence2的B和L级别相比(B是0.23 L是0.7,都嗷嗷小)除了coco的数据集以外,其他的,没经过微调的florence-2都比特定领域数据训练的模型表现好,尤其是标准视觉的特定区域的CV任务,可能VQA要差点(VQA这玩意和模型大小的差距还是挺明显的)•视觉注释的稀缺:现有的视觉数据集,如 ImageNet、COCO 和 Flickr30k 等,尽管标注精细,但由于任务和应用的专用性限制,难以捕捉到全面的空间层次和语义粒度信息。

2024-08-04 14:42:26 785

原创 Meta的哈士奇架构能取代GPT等级的模型吗?

在没有大模型LLM的时代,实际上也不是NLP,只不过负责的任务会分成有多个NLP模型(还得加上其他模型,包括写死的策略引擎)来解决。自从LLM出了以后,尤其是scaling law推出了以后,伴随着大模型的涌现能力和COT能力越来越强,其实NLPer们挺难受的,一方面这些做算法的人大都是穷哥们。

2024-07-15 09:41:40 1049

原创 多模态MLLM都是怎么实现的(11)--从SadTalker到快手LivePortait

我之前出差带休假差不多两个礼拜吧,今天回北京更新一篇我确实找到了一个有意思的东西,这东西开源了,你可以认为是目前做得最好的"Sadtalker",国内也有dream-talker,EMO之类的。我之前看EMO的效果最好,先不说EMO(它虽然标称A2V,实际上就是ASR+T2V+openpose)这种不开源,光拿git上挂个demo测不出来好坏,实际产品力有待观察,主要是LivePortrait的表情位移和精确度要吊打其他任何一个目前我看到的产品,包括EMO。

2024-07-06 11:53:32 1149

原创 多模态MLLM都是怎么实现的(10)-Chameleon和Florence-2如果你想玩多模态就不能不了解

这个也是一个补充文,前9章基本把该讲的讲了,今天这个内容主要是因为Meta出了一个Chameleon,这个以后可能会成为LLaMA的一个很好的补充,或者说都有可能统一起来,叫LLaMA或者Chamleon或者什么别的,另外我司把Florence的第二个版本开源了,google的paligemma瞬间啥也不是了!Chameleon 5月16日就发了论文,昨天才正式开源论文地址:2405.09818 (arxiv.org)

2024-06-22 12:57:16 805

原创 RAG未来的出路

一个简单的解决办法是,通过预生成QA对,来搞这个事情,因为问题和答案的相似性,永远不可能比问题和问题的相似性高,因为余弦的作用机制,所以我们把每个chunk,通过prompt engineer让GPT预先生成了一堆针对这个chunk提出的问题,然后做2级查找结构,比如刚才的那个场景,我们在生成QA对的时候,就有可能被GPT的深层推理,推出来其中一个Q是"男职工的陪产假有多少天",当然我并不否认长上下文对提升理解力的一些帮助,就是没大家想的那么牛B而已(说个数据,达到128K以上的语料数据,不到百分之5。

2024-06-17 16:47:45 1126

原创 “借数据“第四章之用Magpie喜鹊来创造合成数据

就是你有它的原始微调数据,不光是instruct tuning的还是PPO,或者DPO的,然后数据分布按着1:3,或者1:5喂给模型,进行微调,这样你会发现效果非常好,不仅灌进去了一部分新的知识(严格说叫权重分布新的倾斜,不能叫灌,但这里就叫灌吧,好理解),而且很少发生微调时候最要命的灾难式遗忘的问题(黑瞎子掰苞米,掰一穗,扔一穗)好了,就讲解到这,祝大家抽卡成功,微调出来的模型更上一层楼,不管怎么说,你看完了这篇,肯定不白看,也算获得了一个牛B的合成数据的办法,或者叫extra原模型对齐数据的方法。

2024-06-15 09:13:02 1006

原创 英伟达的GPU(4)

绿色的HBM(Device memory),由于操作系统也不在CPU那边,所以比如你要是训练,或者推理时候读取数据,模型,还得从能掌管IO的CPU的内存那边拿数,CPU的内存和HBM显存之间想通信,一般是经过PCIE,这个图有点老,PCIE还显示6.4Gbps, 实际上现在的PCIE Gen5都15.6G了,下一代Gen6能到256。一级在SM内部,纯粹的片上片,所以虽然两个缓存都是SRAM,但是大小区别很大,因为就近的和tensor core或者cuda core通信,所以L1那边也是速度起飞。

2024-06-08 11:22:35 885

原创 多模态MLLM都是怎么实现的(9)-时序LLM是怎么个事儿?

TCN,另外时间步卷积,Temporal Convolutional Networks ,使用卷积网络处理时序数据,具有更好的并行计算能力,但是为啥不用它呢,其实和它对NLP的道理差不多,通过野去做东西不适合序列化的任务。讲完了,总体看其实思路并不难,冻住LLM,只用少量的时序数据就可以快速训练,但是其实我刚才也讲了,前期的数据准备工作,包括PAP是很复杂的,需要有很好的数据工程基础。第三块就是对这段给过去的数据的一个描述,主要是最大最小,均值方差,MAE,MSE啥的,普通的时序预测咋算,这个就咋描述。

2024-05-28 20:32:16 1127

原创 英伟达的GPU(3)

书接上文,上文我们讲到CUDA编程体系和硬件的关系,也留了一个小问题CUDA core以外的矩阵计算能力是咋提供的本节介绍一下Tensor Core上节我们介绍了CUDA core,或者一般NPU,CPU执行矩阵运算的逻辑,基本就是矩阵的一条横向量*另一个矩阵的列向量(逻辑上可以这么认为)如上面的图所示,左边代表了Pascal架构就是P架构的时候 CUDA core 来处理矩阵运算的逻辑,蓝色的矩阵和紫色的矩阵分别代表两个矩阵,然后他俩做点积的时候,基本就是一个横向量*一个列向量。

2024-05-25 12:35:29 1011

原创 小周夜话第一期之负样本和RAG优化

其实这块我觉得反而可以拿生成式来做一些负样本,提升负样本的数量,来提升对比学习的效果(clip或者blip),或者传统CV的效果。开个新系列,主要是和朋友一起聊的一些具体项目,截取有意思的点的对话,刨去敏感的客户名字和项目,给大家一些实际项目中的启迪。第一期就先这样吧,试试水,我真的不是为了水而水,大家要是看明白了门道,绝对对你们日常工作有帮助。制造业生产力为了提升召回率,居然轮齐了大锤!当然也可以反着想,就看怎么合理了,召回率更高。我哥们儿的RAG优化方法。我日常的RAG优化思路。

2024-05-23 09:38:12 268

原创 OpenAI,Claude,Gemini御三家线上推理的杀手锏(Speculative Decoding)

除了第一种和第二种,其他的往往代表着精度损失(其实flash-attention本来也和hf的模型推出来的东西有区别,不过大家没有不用的,就睁一眼闭一眼了),所以我说自己玩还行,线上就有点扯淡,当然这个时候不同的观点会说,量化完了以后的模型比原始模型损失也就几个百分点,相差不大,到这里我就会提一个尖锐的问题,你知道我为了提升几个百分百点的准确率,其实现在这么卷的环境下,别说几个百分点,就是一个百分点,背后都付出了多少算力,合成了多少数据?22后面跟了一个r的token,就这样经过了5个token轮次。

2024-05-21 10:56:33 761

原创 我所理解的GPT4-o架构应该是啥样的?

对硬件厂商的影响,肯定还是利好,你们想想300ms的延迟,那基本现在的所谓推理卡都不太好实现,基本都是拿训练卡来做推理用了,还一个隐含的故事线就是CPU这块,因为多模态数据工程里面,编码处理的问题,对CPU架构可不是多核了,需要的是高时钟频率啊,Intel和AMD能借这个机会反击ARM么?从这个也看出来了,中文互联网大部分的语料真的都是垃圾,实话实说,当然这个是词表,并不算在GPT的Transformer架构里,训练好的模型基本不太会吐这些句子,而且还有后处理,所谓的丢人风险,基本不会出现。

2024-05-20 22:36:59 1007

原创 KAN 为什么 牛B?

ℓ就是RMSE就是均方根的差,N是参数量 α是缩放参数,简单看就是肯定参数量越大,你效果越好,但是KAN用到是B-spline,B-spline可以分Grid,Grid可以选粒度,粗粒度,细粒度,通过不同的粒度组合,不断的拟合和逼近到最终的函数,说白了KAN靠Grid就行了,可以先训练一个粗粒度的KAN,然后调Grid把粒度变细,就能扩展成为参数较多的KAN了。节点我就不用那么多了,我干活的东西全在节点和节点相连的边上,说白了,我的激活函数是可变的,可学习的,然后我节点就干个加法就完了。

2024-05-19 22:20:37 649

原创 英伟达的GPU(2)

简单说它就是NV自己的通用并行计算架构,是一种并行计算平台和编程模型,该架构使GPU能够解决复杂的计算问题,连接程序和GPU的核心,它一般情况用C来开发,3.0以后也提供了对其它编程语言的支持,如C/C++,Fortran等语言。OK今天就讲这些,大概把CUDA的编程知识点和硬件的关联性给大家理了一下,我第一篇就说过,CUDA core对于矩阵计算,实际上可以认为是向量对向量的乘然后并行,(A矩阵的行向量,去乘B矩阵的列向量)这也是大部分的GPU,NPU执行矩阵计算的逻辑,那有没有更好的方式呢?

2024-05-18 17:10:11 837

原创 英伟达的GPU(1)

并发能大大提升处理器处理任务的效率,在一个时间段执行多个任务,但是请注意,这并不意味着这些任务是同时执行的,虽然都在这个时间段执行,比如一个时钟周期,但是任务任务都会被随时中断,供其他任务运行。当然CPU也不是不能做矩阵乘,就是效率低,虽然现在也有多向量化支持的指令集,甚至出现了AMX这种的指令集,但是硬件上的限制还是决定了它的上限,这也是硬件架构决定的,比如下面的这张老图。不同于有的core级别设计的线程管理,NV的GPU是SM级别的SIMT,这些线程的调度是要靠Warp Scheduler来实现的。

2024-05-15 22:40:45 701

原创 不训练也能给模型加上各种超能力?

不同于Sakana和Jamba,从头开始design模型的各个layer来进行合并,这种特别工程化的项目,大多数的开发者和小型团队,是不具备这样的能力的,说个最简单的,百分之99的人都不知道每一个层的权重分布到底是干啥的,这需要大量的实验数据和理论支撑。Sakana也好,Jamba也罢,其实都是模型合并的一种比较好的项目实践,今天我们可以讨论一下普通开发者是否能像做一个项目一样,合并多个模型,达到自己想要的效果(GPU的连载后面写,东西太多,再给2篇也不知道能不能写完。增强了合并模型的整体性和稳定性。

2024-05-12 13:39:55 499

原创 AI与电力

从另一个角度看这个事,10万台H100,就是70M瓦, 刚才我们聊过,类似纽约这种,它的能力大概是10几个G瓦,70M瓦其实还好,如果是缓慢增长,电网未必能干断,但是怕就怕在AI的业务形态,主要是训练这块,都是突然就曝起,然后突然就下降,因为同一时刻计算和存储只能干一个事,计算的时候总耗电量刷就上去了,存CKPT的时候瞬间就下来了,或者如果在微观细分一下,attetion层和MLP层消耗的电量都不一样...这种超大规模的抖动,一般的现有电力系统是吃不消的,目前看,我拿到的信息,没有特别好的解决办法。

2024-05-03 09:36:58 748

原创 多模态MLLM都是怎么实现的(8)-GPT4V和Blip

第三步,把互联网标注的语料,拿ITC,和ITM给过滤了,错的,我就不要了,只留下好的,就是Tw的绿色部分,另外没有标注的互联网图片,用LM来标注成Ts,一起混合成新的数据,再和老的数据,重新灌注给模型的变成新的pretrain,完成下一个ephco,周而复始,把不断迭代优化Loss。第一阶段,拿clip 的image encoder来训练,冻结住LLM,经过一个W的project转换(可以理解为线性层的矩阵对齐),说白了,就是一个线性层,image转换embedding的层W。

2024-04-17 13:58:14 835

原创 解读神秘的华为昇腾910

1-如果从数据从HBM拿到,通过BIU(总线IO单元)进入到DSA的角度,实际上,是要先经过MTE,所谓的存储转换单元,这也是达芬奇设计的一个特点,我个人理解,它其实是做了硬件层面的embedding,这个好处见仁见智,如果网络固定没问题,但是如果网络不固定,这个设计反而成了一个掣肘(估计后面的产品线会把它去掉,尤其在大模型时代)目前市面上跟训练推理相关,在售卖的,能查到资料的主要是两个系列,310,910,大版本叫这个,但是不同的ABC啥的,性能完全不同。这期内容就这么多,主要我搜到的资料也就这么多。

2024-04-15 09:19:46 1172

原创 长上下文训练的关键因素(2)-flash-attention

然后我们说它为什么能摒弃从HBM和SRAM之间来回导数据,刚才不是讲了它离GPU近吗,因为在片上内存做操作,但是片上内存少啊,这SRAM也就几十M,根本不可能装载现在的训练语料和代码,你如果只是近,但是要反复和HBM通信其实也没多大意义,就只是加速了SRAM到GPU的这一段,然后你反复和HBM通信,其实还是很占延迟的,算完一步比如QK,传到HBM,再从HBM传回来QKsoftmax,再算,再导,这也挺折腾的。先说第一点,为啥这么做,是因为求导求的时候QKV的倒数,你还得求和保存中间结果啊,dS和dP啥的。

2024-04-13 10:59:48 713

原创 Microsoft Maia

片外对联三根红线是连本PCB的Maia芯片的,另外三根蓝色的是连外面机器的,也就是对AI网络的连接,每个机器能给到4.8T/s的带宽,给的还是超级高的,一般比如Nv啥的,对外也就给个2.4T/s,少一半。其实也不光MS了,别人家也都在做,别人家我指的是所有的CSP,这个是个趋势,已经无法逆转了,因为最后算下来,整体拥有成本来讲,推理会达到你训练成本的24倍(主要是指确实是值得运营的大模型业务啊,搞笑的不算在内),那你说云厂商做不做呢,这就是纯纯阳谋了。

2024-04-11 10:28:08 953

原创 Google的TPU

Core Sequencer 不再从CPU拿指令,而是从Instruction Mem 取出VLIW指令,使用4K 32-bit 的标量内存来执行标量运算,有32个32位的标量寄存器,而将向量指令送到VPU,322位宽的VLIW可以发送8个操作,2 个标量,2 个向量ALU,向量load,向量store,一对从矩阵乘来的队列里的数据。各种转置,规约,置换,神经网络就这点东西。我是真不愿意写TPU,因为不是很新,身边又几乎没人能用的上,估计又没什么阅读量,不过本着之前说过要写的承诺,我也就硬着头皮写了。

2024-04-10 15:39:20 449

原创 续写Groq

我们再不考虑内存OOM的情况下,在固定硬件的条件下,随着batchsize的增加,带宽基本达到了峰值,然后整个系统的瓶颈就从带宽转向了算力,说白了,最后给GPU/NPU喂的数据已经加到极限了,这个时候就不是带宽的事了,是看GPU/NPU的能力了。目前对于上面推理,常用的优化措施,占用的芯片能力主要是KV cache,说白了,按着上面的图来讲,如果显存够大,每次都能把之前的信息都cache住,那么对于GPU或者NPU来讲,就推最后一个蓝色的token就可以了,这就是一种加速方式。先别急,看一下下面这个图。

2024-04-09 19:31:30 628

原创 长上下文训练的关键因素(1)

就是只能跟自己一眼颜色的这些token来做attention,一般来讲Local-attention都是固定分块,比如N=64个token就变一个颜色(颜色纯为了理解方便,和什么颜色无关),假设喂到模型的序列长度为n,分多少块计算方法就是n/N,本来每一个分块的计算方法和普通的attention是一样的,就是N^2(因为N不是<n吗,这可千万别看错了啊,n是原序列,N是被劈开的序列),然后总的不就是n/N*N^2了吗,分子分母N被消去了一个,就剩下N*n了,因为N一般都没多大吧,了不得256?

2024-04-06 10:55:27 655

原创 什么?穷哥们没钱RLHF?跟我一起DPO吧,丐版一样用

首先我们看一下原始数据集,原始数据集的构成分为3部分,一个是question,代表想提出的问题,一个是answer代表回答,第三部分是context代表参考的表结构。这个训练的目的就是不管回答什么问题,都要用SQL语句的形式来回答,强调一种受欢迎回答的范式,这也是RLHF/DPO训练的主要目的。·第三个reject,表示不希望用什么方式来回答,这里就留空了,代表隐式确认,如果有条件也可以整理不喜欢的回答范式。本次进行DPO的模型是一个500M的GPT-2,目的是训练快,少占资源,快速看到结果。

2024-04-04 19:06:10 709

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除