- 博客(124)
- 收藏
- 关注
原创 手把手带你理解OpenManus
它具有初始化、计划创建(create_initial_plan)、思考(think)、行动(act)、计划状态更新(update_plan_status)、步骤跟踪(step_execution_tracker)等功能,并能根据工具执行结果动态调整计划,处理初始请求(run)并检索当前计划状态(get_plan)。__init__: 初始化工具相关的属性 (available_tools, tool_choices, special_tool_names, tool_calls等)。
2025-03-15 22:24:11
1153
原创 你理解的控制LLM幻觉的方法可能是错的
那什么是粗暴的控制LLM的幻觉的方法呢?正常你们大家学到的应该是top_k=1top_p=0.1类似这种的但是这种是不是能解决幻觉呢?很显然在做的各位试过,应该是没什么效果的为什么呢?正常来讲,我们不是把生成next token的概率放到最大的那个token上了吗?今天先回忆个概念LLM是靠什么来决定next_token生成的就是Logit,就是softmax你的前向计算的最后一层(这么表达不精确,但是你可以认为就算最后一层了)过了output之后呢?
2025-02-24 00:54:19
993
原创 SSI用量子计算来玩AI
提到量子计算,大多数人想到的因式分解来暴力破译密码,要不就是拿量子态模拟化工生物啥的(因为世界是量子的,传统计算比如GPU要模拟一个真实的量子行为,比如CRP蛋白质反应,得老鼻子GPU了,可不是alapha fold那种预测能实现得难度,量子计算就很擅长这个)另外刚才我讲了传统计算机有自己的控制误差底层纠错能力,但是Qbit就不太行,它的能量太小了,比如用超导的系统来做,一个量子Qbit就只有1个光子的能量而已,贼脆弱,特别容易收到环境干扰和内部误差的影响。(人脑只有40瓦的灯泡耗电量的故事,我就不讲了)
2025-02-22 22:29:09
818
原创 快速讲一下deepseek的新论文,这次他们魔爪伸向了attention
该分支在输入序列中维护一个固定大小的窗口,对窗口内的 token 进行常规的注意力计算,确保模型能敏感地捕捉到近邻之间的细节和依赖关系,从而防止在全局稀疏化处理时局部信息被遗漏,这个就没什么特别可讲得了。在传统的注意力机制中,随机的内存访问会造成较大的延迟,而 NSA 的选择分支通过对连续块的选择,有效避免了这种问题,确保了硬件的高速缓存(cache)和带宽能得到最优利用,从而进一步提高计算速度(这部用细讲了,windows app都知道要降低random 读写,能提升速度)
2025-02-18 16:10:36
663
原创 LLM到底会解数学题吗?
总结一下,就是模型肯定是可以学到训练集里解决问题的技巧,也就是COT范式,COT也是有范式的,或者说学到了解决问题的思路,但是它总是盲目的使用,也不去考虑比如类似问题被修改了以后,还用这套COT范式,是不是合适。至于文章说用什么mcts,BON还是文章自己的训,我到觉得都不重要,mcts+个reward model的变形一样可以训,只要你把COT的pattern给内化到模型里,基本就可以干这个事了。另一个角度上讲,其实让我乐观了一些,我一直担心,LLM要取代人类,但是我也没什么确实的证据或者反证。
2025-02-13 22:07:45
659
原创 算力人再次天塌?李飞飞的s1是怎么炼成的
做算力的人天又塌了!!!(这个正月,塌好几次了)https://arxiv.org/pdf/2501.19393李飞飞团队刚刚发布的论文,仅仅用了 1000 个样本,用了 16 块 H100,在 26 分钟就训练完成了可以匹敌 o1-preview 的模型。但是具体的情况?本着本 blog 一贯认真负责的追求事实真相的原则,我抽丝剥茧展开说一下。S1 这个模型的训练方法基础模型性能很好 Qwen2.5-instrut,用过的都知道 32B 模型里的最强者,没有之一(闭源也没有 32B 的)。S1 模型就是基
2025-02-06 18:59:03
1631
原创 All in one 的 AI tool Chain “Halomate”
2- Deepseek 有非常好的文学造诣和情商,用它来进行创作简直无敌,在deepseek这么火的今天,大家使用的很多endpoint其实服务的并不是完整的600B,而是其他蒸馏版本,在这里你可以使用到原生的deepseek的古灵精怪能力。我刚才的mate就默认开启了 高级visualization强化的能力,让AI给你的答案不光是答案,还会以具像化的图标来呈现,有更强的表现能力。WC,这个悲伤又亢奋的曲子就被谱写出来了,虽然是mid的,但是能家族对抗的味道。6、Preview产品原型?
2025-02-05 20:37:57
1009
原创 产品思维的角度来讲,Deep Research本质是Co-RAG
当然我这个标题扣的很多同学会不同意也能理解比如有些人说我用while 也能实现只要最终给出一个差不多样子的markdown文件就行这话也对也不对对的是似乎从产出物来讲,是那么回事,但是实际上你的东西不一定是deep research,有可能是deep hallucination,或者是deep fake原因其实和最早玩autoGPT之类的agent没什么区别multistep解决问题是提升精确率的一个重要因素,但是不是只靠它就可以内生COT或者叫隐式COT的的道理也是一样的。
2025-02-04 21:44:39
687
原创 Adaptive LLM Transformer²
TRANSFORMER-SQUARED: SELF-ADAPTIVE LLMS 挺有意思的,是一家日本AI公司SakanaAI的论文(我以前写过他们的不训练提升模型的能力的文章,感兴趣可以去翻)它家有Lion Jones坐镇,也是attention is all you need的作者之一,这篇论文的继承了他们家的传统,重视算法(没什么卡,2024年中旬好像才有了第一台自己的8卡H100),脑洞比较大。说人话就是把W权重给劈开了,更细化了,比如W权重矩阵里面可能有管数学的,管语文的,管历史的。
2025-02-03 20:45:31
979
原创 纯后训练做出benchmark超过DeepseekV3的模型?
好,总结一下,Tülu 3 反证了一个观点,即纯用精修的数据来SFT,在精修数据DPO,RLVR也能使一个还差不多的模型达到更高的高度,比肩top档的非reasoning模型,这个方法的上限其实理论上还能提升,就是不断的精修数据,以换取更好的结果,但是做到极致,其实就和折腾预训练到RL完事区别也不大了...准确reward和格式reward,尤其是accuracy_reward,它是靠引入latex来做比如数学公式的判断对错,可验证的,而不是简单的偏好字符串对比,看你对,你就对,RLVR也是类似的道理。
2025-02-02 18:24:14
808
原创 英伟达跌成这样,是不是AI算力就没用了?
在于它并没有PRM,不对中间的生成步骤做任何干预(MCTS也没用)就是让模型自己的生成COT,然后因为模型被教育要一直思考,就不停的生成,生成多了,突然就到了一个“Aha”时刻,问题就被解答了,其实简单讲就式这个意思,不断的循环RL,对你要做的police,这个policy在这里就指带最初的V3,因为它是个在线的RL,不断的优化策略逼近 output reward最高的标准(它连reward模型都没有,因为是GRPO,GRPO本质上是一种DPO,纯靠偏好function来做RL的)
2025-01-28 14:24:08
951
1
原创 2025第一篇文章diffussion model与time test inference
不是我不更新,找到值得写的东西我还是会更新的这个是我2024年年末的展望,基本都应验了第二条不值得称道,但是2025年做通用模型的会越来越少,这也是没办法的事情2025年开年的一大预测其实也是结合2024年年底的时间强化学习的动作空间搜索(不一定非得是MCTS)会在2025年在更多的模型架构上启动今天这不就来了吗谢赛宁和Google一起整一个论文你,发现time test inference在diffusion model 一样很牛B。
2025-01-19 23:09:58
790
原创 解读DeepseekV3
(主要是后训练阶段)它模型下载下来看起来还能行啊,也就不到700G,那正常671B的参数,根本不可能这么点显存占用,因该1.4T左右,这是因为它原生就FP8出的,这大概是我知道的第一个原生之直接出FP8的模型,Meta说很早就用FP8训练了,那Llama3啥的也默认都BF16的,有些特定的模型FP8 GPTQ/AWQ过,像它这么激进的应该是第一个。d_c 表示压缩后的维度,远小于 d_h * n_h,所以你kv对就小了呗,因为小了,所以占显存也少了,推理的时候kv_cache也少,推的也快,这下看懂了吧。
2024-12-27 23:54:51
2277
原创 不谈O3,来聊聊如何解决LLM安全问题之审慎对齐
这是一种简单的混淆手段。然后基本上一次输出的这个COT和output肯定有很多的问题,这个时候第二个模型上场了,就是RL的模型,这里叫G_RM(它在判分的时候也参考spec来决定分高还是低), 但是它这个只是给输出打分,分不高的都fliter掉,留下生成的比较好的数据,数据生成够了,就给G_base做 SFT去了,不好的重弄,相当于一个数据飞轮。总而言之,输入到 Gbase 的 spec 是根据提示的安全类别定制的安全规范,它包含内容策略、风格指南以及其他与安全相关的说明,用于指导模型生成符合规范的回复。
2024-12-22 17:57:36
937
原创 OpenAI最新推出的RFT是什么?
牛逼版:不是见得ReFT,当然ReFT肯定得做,毕竟O1也一样要PPO,ORM的RL,这都是其中的一环,但是O1内部可以把你输入的领域知识(前提是带COT步骤的,当然ReFT也得带,不然RL什么呢?然后就没了,那下次有同样的问题,或者语义上非常类似的,你问问还是可以的,稍微扩展一下,是没用的,另外即使语义接近的,比如"月球为什么不是方的",它也有概率答错。因为对结果的监督,其实是RL的上一代玩法,说对O1能微调啥的,我信,但是O1的能力是基于过程的RL,如果你就给我个结果,不给过程肯定是不行的啊?
2024-12-07 11:57:28
667
原创 投机采样的显性化——OpenAI新feature:Predicted Outputs
对用户的好处,那自然不必说,因为模型分为input和output token,你把本来应该output,token by token推理的output,给转成input了,input就可以prefill也就是玩kv-cache,也就可以被并行计算,那你说快不快,这也就节省了推理延迟,同时理论上,是省钱的,因为input token便宜,output贵。小模型生成了接下来的n个标记,然后在大模型上进行n个并行推理,具体为:Prompt,Prompt + ST1,Prompt + ST1 + ST2 …
2024-11-08 22:50:49
985
原创 Waymo的EMMA给多模态端到端自驾指引了方向
最近Waymo发的论请问你EMMA端到端确实在自动驾驶届引发了很大的关注,核心的原因是它采用的端到端模型是基于Gemini Nano的语言模型,目前看现在做端到端方案的,就它和特斯拉是语言模型为底座来实现多模态视觉输入的。端到端多模态自动驾驶的意思,不是艾玛电动车论文地址:2410.23262先看看他是怎么做的第一:感知层面,它纯视觉,没有雷达之类的输入。
2024-11-02 21:05:32
998
原创 纯研究O1的论文都发出来了,让我想起来研究红楼梦的红学
有点意思的论文 2410.13639简而言之就是曼彻斯特大学,浙大和中科大还有一些开源的项目组一些一起研究OpenAI O1的人,来发O1为什么牛B的论文正常,研究红楼梦毕竟也有红学(我是一集红楼梦也没看过,书和电视都没看过)。。。文章主要讲分析猜测和评估OpenAI的推理模式在不同任务上的效果同时也利用不同的模型比如GPT4o,Gemma,LLama, Qwen等尝试利用分析出来的O1的推理方式。
2024-10-29 19:23:55
934
原创 强化学习入门到不想放弃-5
也就是折扣系数,这个理解起来也不难,比如你做了一个动作不光对当前的state s有影响,也会对之后的state都会有影响,引申的含义就是当前的状态也会影响到之后状态所获得的奖励,但是当下的奖励的重要性一定会大于未来的奖励,γ的取值范围也是0到1(不能是1), 比如0.4,0.6,理论上越近折扣系数应该越高,这个也好理解,列成式子就是。圆形的有的有一个后续,有的有多个候选选择(概率),不同的action,有不同的奖励得分,比如刷facebook就扣1分-1,比如学习就加10分之类的。
2024-10-26 00:32:01
871
原创 GPT4o Realtime voice功能的复现路径
因为LLaMA-omni实际上在输入侧就一个voice input,但是文章里面的prompt其实也提示了,这里还有个text input的embedding,这就涉及到模态融合embedding的融合了,只不过这里做的特别巧妙,但是在GPT4o因为它的模态更多,更复杂,所以对模态的embedding要求更高,因为embedding不可能无限长,所以为了兼容视觉和语音,GPT4o的text embedding长度也被压缩了。
2024-10-16 15:14:08
797
原创 怎么理解Contextual-Retrieval ?(顺手讲一下prompt-cache)
如上面所示,原始得chunk,是两个"The",导致不管是embedding还是BM25都抓不出来它,那要是把original_chunk,通过某种手段,给转换成下面这种contextualized_chunk,把上下文信息给注入到chunk离,这下,如果还是刚才得问题,那必然是一问一个准。有人说用Hybrid RAG是不是能强点,比如上图,此时,你是加BM25 关键字,还是加Graph-RAG都没啥用,你懂得,因为回答是一系列得"The"指代,并没有和问题中得描述有关键字匹配,也没法建立节点和边得关系。
2024-10-10 23:28:47
1319
原创 强化学习入门到不想放弃-4
3- Reward:Agent默认如果对环境的规则没有任何概念的话,它是不知道如何做的,但是比如弄洒了水咋桌子以上,这种的行为,其实就是一个减分项,如果我们认为洒水要-100分,而把水擦干会得200分,那在之后Agent于环境的操作就不会洒水了,而发现别的水洒了,它会擦干,其实就有点像小孩对这个世界刚开始的认识差不多,是靠一些奖惩机制来了解世界的。2- Action:就是对环境执行的动作,Action对环境执行了动作以后,环境就改了,比如把水给洒桌子上了,那state 也就是环境的状态,也就变了。
2024-10-07 22:25:24
715
原创 CPU上推理矩阵乘不厉害,那么查表呢?MS的 新推理方法T-MAC
W(权重矩阵,int8): | 1 | -3 | 6 | | 4 | 8 | -4 | | 0 | 2 | -2 | A(输入激活矩阵,int8): | 4 | 1 | | -6 | 4 | | 3 | -5 |就是先把之前的矩阵打散,然后再给化成小的矩阵,比如都化成2*2的小矩阵,这样容易提升查找的命中率,然后为了优化内存的存储方式,再做一个permutation,最后可能就这样(随便举个例子)
2024-10-01 20:05:47
918
原创 神神叨叨的OpenAI和神神叨叨的草莓
原来的RL,它不是一点也学不到,但是它无法对每一步都研究的特透,有人可能拿围棋的AlphaGO跟我抬杠,这个例子其实不错,但是首先围棋它和你解决AGI这种通用问题不一样,第一它有严格的规则,而且理论上来讲就那么个棋牌,是有固定的讨论,所以你只要给它足够的把数,让它硬搞,它是能学到某些隐空间里定义的套路,但是对于NLP这种动辄就把人类社会的所有知识点都拿来pretrain的业务,你让它像Alpha Go这样死命练是不够的,更别提好多数据集了的答案甚至都是错的。也会对产出最终答案的正确性起到非常大的作用。
2024-08-29 17:14:26
1046
原创 详解MS的GraphRAG的实现流程
社区检测提供显式的社区结构,帮助我们在图谱中理解不同实体如何形成群体。图谱嵌入提供隐式的语义表示,增强图谱在查询阶段的搜索能力。提到Node2Vec大家可能比较乱,word2vec好理解,你把Node2Vec干么呢?那你想想你word2vec是为了干么呢?找语义相似性对不?那Node2Vec不也一样吗,近似的node会在隐空间距离更近,聚类不就好弄了么,其实就这么点事,看我的文章是不是一下子就明白了Phase4。
2024-08-21 15:35:33
1187
1
原创 如何优雅的薅羊毛之Flux.1免费使用还支持中文prompt
图非常好,中文进,出完美图,但是分辨率还是和刚才一样有点问题,不知道是不是API的问题,还是我使用API的问题,回头再看吧,反正可用。用这个方法,不管是任何DIFY原生不支持的API或者tool,都可以直接加入到DIFY的tools里面,还是挺方便的。然后创建一个4节点的工作流,在staret节点上,选择输入,我们这里写3个一个是prompt一个是模型的长一个是宽。图很好,分辨率有问题,似乎我写的512*512的*号在这里没被识别,无所谓了,一会再调。Claude干活很利索,直出,改我都懒得改,拿来就用。
2024-08-19 09:48:57
529
原创 你为什么要用GraphRAG?
在提取了元素实例之后,LLM还负责生成这些元素的摘要。每个节点或边的实例被独立地总结为一个描述块,这些描述块提供了对每个图元素的独立理解。对于每个社区,LLM生成一个社区摘要。这些摘要描述了社区内部所有节点和边的关系及其重要性。社区摘要可以用于后续的查询回答生成过程。
2024-08-18 10:54:18
1020
原创 萝卜快跑和端到端的自动驾驶(1)
相当而言,下面的这个方式,比较好容易被接受,就是把感知,预测,决策这些模块在一个模型了,planning和control这些不用放在模型里执行,在模型外,可以写一些兜底的策略,比如紧急避障,紧急刹车,限速啥的。:跟踪模块持续监控并预测周围移动物体的位置和速度,例如其他车辆和行人,以便系统能够做出及时和准确的反应,避免碰撞。这是一个错误的理解,特斯拉的纯视觉方案在训练时有text指令的输入,所以它也是多模态的。比如如果你感知做的很垃圾,那么很不幸的是,你的跟踪,路径规划,决策啥的,都会受到影响。
2024-08-16 09:18:56
774
原创 英伟达的GPU(5)
上一章地址我们之前讲过了GPU的kernel,线程划分,内存管理这节我们讲一下多个GPU的通信从这张 NVLink 性能发展的图表可以看出,NVLink 技术自 2014 年以来经历了多次升级,性能不断提高。
2024-08-10 22:15:00
1481
原创 多模态MLLM都是怎么实现的(12)-Florence-2
前3个表是拿经过特定领域数据训练的模型和florence2的B和L级别相比(B是0.23 L是0.7,都嗷嗷小)除了coco的数据集以外,其他的,没经过微调的florence-2都比特定领域数据训练的模型表现好,尤其是标准视觉的特定区域的CV任务,可能VQA要差点(VQA这玩意和模型大小的差距还是挺明显的)•视觉注释的稀缺:现有的视觉数据集,如 ImageNet、COCO 和 Flickr30k 等,尽管标注精细,但由于任务和应用的专用性限制,难以捕捉到全面的空间层次和语义粒度信息。
2024-08-04 14:42:26
856
原创 Meta的哈士奇架构能取代GPT等级的模型吗?
在没有大模型LLM的时代,实际上也不是NLP,只不过负责的任务会分成有多个NLP模型(还得加上其他模型,包括写死的策略引擎)来解决。自从LLM出了以后,尤其是scaling law推出了以后,伴随着大模型的涌现能力和COT能力越来越强,其实NLPer们挺难受的,一方面这些做算法的人大都是穷哥们。
2024-07-15 09:41:40
1064
原创 多模态MLLM都是怎么实现的(11)--从SadTalker到快手LivePortait
我之前出差带休假差不多两个礼拜吧,今天回北京更新一篇我确实找到了一个有意思的东西,这东西开源了,你可以认为是目前做得最好的"Sadtalker",国内也有dream-talker,EMO之类的。我之前看EMO的效果最好,先不说EMO(它虽然标称A2V,实际上就是ASR+T2V+openpose)这种不开源,光拿git上挂个demo测不出来好坏,实际产品力有待观察,主要是LivePortrait的表情位移和精确度要吊打其他任何一个目前我看到的产品,包括EMO。
2024-07-06 11:53:32
1209
原创 多模态MLLM都是怎么实现的(10)-Chameleon和Florence-2如果你想玩多模态就不能不了解
这个也是一个补充文,前9章基本把该讲的讲了,今天这个内容主要是因为Meta出了一个Chameleon,这个以后可能会成为LLaMA的一个很好的补充,或者说都有可能统一起来,叫LLaMA或者Chamleon或者什么别的,另外我司把Florence的第二个版本开源了,google的paligemma瞬间啥也不是了!Chameleon 5月16日就发了论文,昨天才正式开源论文地址:2405.09818 (arxiv.org)
2024-06-22 12:57:16
876
原创 RAG未来的出路
一个简单的解决办法是,通过预生成QA对,来搞这个事情,因为问题和答案的相似性,永远不可能比问题和问题的相似性高,因为余弦的作用机制,所以我们把每个chunk,通过prompt engineer让GPT预先生成了一堆针对这个chunk提出的问题,然后做2级查找结构,比如刚才的那个场景,我们在生成QA对的时候,就有可能被GPT的深层推理,推出来其中一个Q是"男职工的陪产假有多少天",当然我并不否认长上下文对提升理解力的一些帮助,就是没大家想的那么牛B而已(说个数据,达到128K以上的语料数据,不到百分之5。
2024-06-17 16:47:45
1153
原创 “借数据“第四章之用Magpie喜鹊来创造合成数据
就是你有它的原始微调数据,不光是instruct tuning的还是PPO,或者DPO的,然后数据分布按着1:3,或者1:5喂给模型,进行微调,这样你会发现效果非常好,不仅灌进去了一部分新的知识(严格说叫权重分布新的倾斜,不能叫灌,但这里就叫灌吧,好理解),而且很少发生微调时候最要命的灾难式遗忘的问题(黑瞎子掰苞米,掰一穗,扔一穗)好了,就讲解到这,祝大家抽卡成功,微调出来的模型更上一层楼,不管怎么说,你看完了这篇,肯定不白看,也算获得了一个牛B的合成数据的办法,或者叫extra原模型对齐数据的方法。
2024-06-15 09:13:02
1056
原创 英伟达的GPU(4)
绿色的HBM(Device memory),由于操作系统也不在CPU那边,所以比如你要是训练,或者推理时候读取数据,模型,还得从能掌管IO的CPU的内存那边拿数,CPU的内存和HBM显存之间想通信,一般是经过PCIE,这个图有点老,PCIE还显示6.4Gbps, 实际上现在的PCIE Gen5都15.6G了,下一代Gen6能到256。一级在SM内部,纯粹的片上片,所以虽然两个缓存都是SRAM,但是大小区别很大,因为就近的和tensor core或者cuda core通信,所以L1那边也是速度起飞。
2024-06-08 11:22:35
1029
原创 多模态MLLM都是怎么实现的(9)-时序LLM是怎么个事儿?
TCN,另外时间步卷积,Temporal Convolutional Networks ,使用卷积网络处理时序数据,具有更好的并行计算能力,但是为啥不用它呢,其实和它对NLP的道理差不多,通过野去做东西不适合序列化的任务。讲完了,总体看其实思路并不难,冻住LLM,只用少量的时序数据就可以快速训练,但是其实我刚才也讲了,前期的数据准备工作,包括PAP是很复杂的,需要有很好的数据工程基础。第三块就是对这段给过去的数据的一个描述,主要是最大最小,均值方差,MAE,MSE啥的,普通的时序预测咋算,这个就咋描述。
2024-05-28 20:32:16
1186
1
原创 英伟达的GPU(3)
书接上文,上文我们讲到CUDA编程体系和硬件的关系,也留了一个小问题CUDA core以外的矩阵计算能力是咋提供的本节介绍一下Tensor Core上节我们介绍了CUDA core,或者一般NPU,CPU执行矩阵运算的逻辑,基本就是矩阵的一条横向量*另一个矩阵的列向量(逻辑上可以这么认为)如上面的图所示,左边代表了Pascal架构就是P架构的时候 CUDA core 来处理矩阵运算的逻辑,蓝色的矩阵和紫色的矩阵分别代表两个矩阵,然后他俩做点积的时候,基本就是一个横向量*一个列向量。
2024-05-25 12:35:29
1350
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人