周博洋K-CSDN博客

原创如何设计Agent的记忆系统

定期迁移冷数据到低成本存储，比如类Glacier的纯冷层，但是我其实还时更推荐放在温层里面进行存储，虽然长期记忆不见的总能用到，但是一旦用到，折腾Glacier还是挺麻烦的，另外一个必须做的工作就是，长期记忆的定期summary，短期记忆可以周期性的汇总形成长期记忆，长期记忆也可以定期汇总形成超长期记忆，来避免context和storage的双重上限压力。以上六种记忆类型，分别服务于AI在不同场景下的存储、处理和应用：从即时、临时的信息处理，到持久、自动化的技能与知识运用。

2025-05-24 23:07:03 1000

原创 DS新论文解读（2）

这个概念是基于现代处理器和加速器设计中越来越流行的。

2025-05-18 20:05:08 1062

原创 dsv3新论文解读（1）

相较于 E5M2，E4M3 用了更多的位数来表示尾数（3位 vs 2位），这意味着它可以表示数值中更精细的小数部分，因此具有更高的精度。但相应的，尾数部分只有 2 位，因此其精度低于 E4M3。FP8 这样的格式，一旦定义好了（比如确定用多少位表示指数，多少位表示尾数），它的测量范围（能表示的最大数和最小数）和每一格的精细程度（精度）就固定下来了。所以它能够根据你的输入来动态给你量化step的宽度，说白了，所示更小，你展示的数值不就更接近最原始的数据分布吗（LLM说白了就是玩概率，你概率准，不就准吗）

2025-05-16 02:49:25 672

原创 RL+search = Deep research

这才是端到端的Agentic的意义，页可以说是LLM as a Agent，Search-R1或者类似的框架，一旦上了，就能通过RL让LLM“学会自主地生成（多轮）搜索查询并在实时检索的情况下进行逐步推理”，和傻调工具的agent是两回事。论文里的印证能看出来，这种最小化的奖励设计在搜索和推理场景中是有效的. RL 即使仅通过结果奖励进行训练，也能帮助模型学习复杂的推理能力，包括自我验证和自我纠正. 在一个案例研究中，SEARCH-R1 甚至在获得足够信息后执行额外的检索步骤进行自我验证.

2025-05-11 16:04:20 699

原创多模态MLLM都是怎么实现的（13）如何保持text2video的连续一致性

这就是一个典型的SD生图流程，通过对比训练的clip embeddding能力，让text的输入隐式包含很多图像的相似性，很好的配合vae编码的latent，这时latent 相当于Q，被clip embedding的text相当于kv，latent再不断去噪声的过程，把text当作参照，也就是按着prompt的指令来生成相应图片位置的object。使用预测的噪声 `ε_θ` 和当前的噪声潜在视频 `z_t`，通过扩散模型的采样算法（如 DDPM, DDIM）计算出稍微去噪的潜在视频 `z_{t-1}`。

2025-04-26 00:01:30 768

原创 Col开头的模型能给RAG带来啥新算法

说白了也不算啥新算法，但是我写的肯定也不是水文章，放心看拿标准RAG来说事的话，一般Hybrid基本上会上两大件儿或3个1- 基于Vecotor的 L2距离或者余弦距离2- BM25的关键字3- 有人做完了之后再过一遍rerank但是这套工作都下来，也不少折腾，还得用好几个模型，然后拼接好几个结果一起发给LLM，让LLM决策，费token不说，多了的东西和准的东西其实有时不完全画等号。那为什么有vecotor DB方案的这个一开始最流行的，后来发现它不太行呢？我们也把这个方式叫无交互。

2025-04-23 00:32:19 643

原创 bitnet-b1.58-2B-4T和三进制

最近有个模型挺火啊现在都排进了HF排行榜的第四了模型叫做microsoft/bitnet-b1.58-2B-4T其实非常小的一个模型，只有2B，那这东西有多大意义呢？它主要探索一个打法也就是这篇论文先说这论文解决啥问题。

2025-04-17 20:25:32 802

原创 Minecraft也能当世界模型？

离散的动作（如前进、攻击）被分类为7个互斥的类别，每个类别用一个唯一的Token表示，也就是所有的操作，被组合成7个互斥的action，此外，还使用了特殊的起始和结束Token来标记动作序列的边界。或者咱们延展一点，如果这东西画面够好一点，比如极品飞车，通过这么玩，研究人员可以设计和测试不同的规划算法，而无需在真实的自驾场景进行耗时且可能危险的实验（但是这个的前提就是要有我说的对真实世界物理引擎的理解了，或者我们说仿真，否则，走任何trajectory都是无意义的MDP）

2025-04-16 23:05:02 892

原创 VScode 玩 MCP的server

vscode claude 3.7 支持了，agent支持了，MCP也支持了，感觉以后cursor啥的有点难了，codebase其实做的都差不多。我本身是Mac版本1.99居然没更新agent，所以我就直接用1.100版本的vscode inside了来掩饰一下了。测试连通性就问问它一些普通问题，例如有没有什么通知之类的，就可以了。把我的邮箱和个人信息都传上去了，吓得我赶紧删了，我的代码里是没有。主要修改的其实是mcp这部分的配置，按着我这个来修改就可以了。传是传了，但是似乎配置有点问题。

2025-04-05 16:59:02 611

原创精讲（但绝对讲明白）Deepseek的新论文SPCT

Pointwise GRM 的关键特性，例如能够以纯语言表示统一地对单个、成对和多个回复进行评分，以及其生成式的特性允许通过采样获得不同的奖励信号，为 SPCT 中原则的生成和推理时的扩展提供了灵活性和潜力。虽然可以对同一输入多次运行模型，但输出的标量值往往是不变的，无法进行有效的聚合。通过元奖励模型输出的元奖励，可以对采样的奖励进行筛选，从而选出更高质量的样本进行投票，提高最终奖励的准确性。然后，可以对这些采样的奖励进行投票或使用元奖励模型进行更精细的聚合，显著提高奖励的质量和细致程度。

2025-04-04 20:36:30 1099 1

原创 A16z也玩RTX4/5090 来搭建穷鬼GPU机器

在这种设置中，PCIe板与主板是分开的，这是一种独特的设计，使得两个独立的PCIe 5.0 PCB板可以单独安装。我们的配置通过将PCIe板与主板分离来解决这个限制，从而在不妥协的情况下完全支持八个三插槽GPU，并使用定制的铝制框架来固定四个外部GPU。这是一个至关重要的优势，因为延长线可能会扰乱PCIe总线的阻抗，从而可能导致系统降级到较低的PCIe版本（例如3.0甚至1.0），从而导致显著的性能损失。确保“Y”型分线电缆延长线具有适当的线规，以安全地处理外部PCIe卡和GPU的功率需求。

2025-04-04 10:18:54 846

原创除了rag和train有没有其他方式给模型注入知识？

当然是有的，没有我就不发这篇文章了.论文名称KBLAM: KNOWLEDGE BASE AUGMENTED LANGUAGE MODELICLR 2025的论文，MS系的这篇论文介绍了一种名为 KBLAM（Knowledge Base augmented Language Model，知识库增强语言模型）的新方法，用于将外部知识库（KB）高效地集成到预训练的大型语言模型（LLM）中，以提升其在特定任务中的表现，同时避免传统方法的局限性。核心问题与背景。

2025-03-28 13:06:50 582

原创手把手带你理解OpenManus

它具有初始化、计划创建(create_initial_plan)、思考(think)、行动(act)、计划状态更新(update_plan_status)、步骤跟踪(step_execution_tracker)等功能，并能根据工具执行结果动态调整计划，处理初始请求(run)并检索当前计划状态(get_plan)。__init__: 初始化工具相关的属性 (available_tools, tool_choices, special_tool_names, tool_calls等)。

2025-03-15 22:24:11 1650

原创你理解的控制LLM幻觉的方法可能是错的

那什么是粗暴的控制LLM的幻觉的方法呢？正常你们大家学到的应该是top_k=1top_p=0.1类似这种的但是这种是不是能解决幻觉呢？很显然在做的各位试过，应该是没什么效果的为什么呢?正常来讲，我们不是把生成next token的概率放到最大的那个token上了吗？今天先回忆个概念LLM是靠什么来决定next_token生成的就是Logit，就是softmax你的前向计算的最后一层（这么表达不精确，但是你可以认为就算最后一层了）过了output之后呢？

2025-02-24 00:54:19 1030

原创 SSI用量子计算来玩AI

提到量子计算，大多数人想到的因式分解来暴力破译密码，要不就是拿量子态模拟化工生物啥的（因为世界是量子的，传统计算比如GPU要模拟一个真实的量子行为，比如CRP蛋白质反应，得老鼻子GPU了，可不是alapha fold那种预测能实现得难度，量子计算就很擅长这个）另外刚才我讲了传统计算机有自己的控制误差底层纠错能力，但是Qbit就不太行，它的能量太小了，比如用超导的系统来做，一个量子Qbit就只有1个光子的能量而已，贼脆弱，特别容易收到环境干扰和内部误差的影响。（人脑只有40瓦的灯泡耗电量的故事，我就不讲了）

2025-02-22 22:29:09 844

原创强化学习能让小模型多恐怖？

不是标题党！不是标题党！不是标题党！先说3遍这个模型有多大呢？

2025-02-19 20:28:28 619

原创快速讲一下deepseek的新论文，这次他们魔爪伸向了attention

该分支在输入序列中维护一个固定大小的窗口，对窗口内的 token 进行常规的注意力计算，确保模型能敏感地捕捉到近邻之间的细节和依赖关系，从而防止在全局稀疏化处理时局部信息被遗漏，这个就没什么特别可讲得了。在传统的注意力机制中，随机的内存访问会造成较大的延迟，而 NSA 的选择分支通过对连续块的选择，有效避免了这种问题，确保了硬件的高速缓存（cache）和带宽能得到最优利用，从而进一步提高计算速度（这部用细讲了，windows app都知道要降低random 读写，能提升速度）

2025-02-18 16:10:36 695

原创 LLM到底会解数学题吗？

总结一下，就是模型肯定是可以学到训练集里解决问题的技巧，也就是COT范式，COT也是有范式的，或者说学到了解决问题的思路，但是它总是盲目的使用，也不去考虑比如类似问题被修改了以后，还用这套COT范式，是不是合适。至于文章说用什么mcts，BON还是文章自己的训，我到觉得都不重要，mcts+个reward model的变形一样可以训，只要你把COT的pattern给内化到模型里，基本就可以干这个事了。另一个角度上讲，其实让我乐观了一些，我一直担心，LLM要取代人类，但是我也没什么确实的证据或者反证。

2025-02-13 22:07:45 694

原创算力人再次天塌？李飞飞的s1是怎么炼成的

做算力的人天又塌了！！！（这个正月，塌好几次了）https://arxiv.org/pdf/2501.19393李飞飞团队刚刚发布的论文，仅仅用了 1000 个样本，用了 16 块 H100，在 26 分钟就训练完成了可以匹敌 o1-preview 的模型。但是具体的情况？本着本 blog 一贯认真负责的追求事实真相的原则，我抽丝剥茧展开说一下。S1 这个模型的训练方法基础模型性能很好 Qwen2.5-instrut，用过的都知道 32B 模型里的最强者，没有之一（闭源也没有 32B 的）。S1 模型就是基

2025-02-06 18:59:03 1749

原创 All in one 的 AI tool Chain “Halomate”

2- Deepseek 有非常好的文学造诣和情商，用它来进行创作简直无敌，在deepseek这么火的今天，大家使用的很多endpoint其实服务的并不是完整的600B，而是其他蒸馏版本，在这里你可以使用到原生的deepseek的古灵精怪能力。我刚才的mate就默认开启了高级visualization强化的能力，让AI给你的答案不光是答案，还会以具像化的图标来呈现，有更强的表现能力。WC，这个悲伤又亢奋的曲子就被谱写出来了，虽然是mid的，但是能家族对抗的味道。6、Preview产品原型？

2025-02-05 20:37:57 1307

原创产品思维的角度来讲，Deep Research本质是Co-RAG

当然我这个标题扣的很多同学会不同意也能理解比如有些人说我用while 也能实现只要最终给出一个差不多样子的markdown文件就行这话也对也不对对的是似乎从产出物来讲，是那么回事，但是实际上你的东西不一定是deep research，有可能是deep hallucination，或者是deep fake原因其实和最早玩autoGPT之类的agent没什么区别multistep解决问题是提升精确率的一个重要因素，但是不是只靠它就可以内生COT或者叫隐式COT的的道理也是一样的。

2025-02-04 21:44:39 726

原创 Adaptive LLM Transformer²

TRANSFORMER-SQUARED: SELF-ADAPTIVE LLMS 挺有意思的，是一家日本AI公司SakanaAI的论文（我以前写过他们的不训练提升模型的能力的文章，感兴趣可以去翻）它家有Lion Jones坐镇，也是attention is all you need的作者之一，这篇论文的继承了他们家的传统，重视算法（没什么卡，2024年中旬好像才有了第一台自己的8卡H100），脑洞比较大。说人话就是把W权重给劈开了，更细化了，比如W权重矩阵里面可能有管数学的，管语文的，管历史的。

2025-02-03 20:45:31 1018

原创纯后训练做出benchmark超过DeepseekV3的模型？

好，总结一下，Tülu 3 反证了一个观点，即纯用精修的数据来SFT，在精修数据DPO，RLVR也能使一个还差不多的模型达到更高的高度，比肩top档的非reasoning模型，这个方法的上限其实理论上还能提升，就是不断的精修数据，以换取更好的结果，但是做到极致，其实就和折腾预训练到RL完事区别也不大了...准确reward和格式reward，尤其是accuracy_reward，它是靠引入latex来做比如数学公式的判断对错，可验证的，而不是简单的偏好字符串对比，看你对，你就对，RLVR也是类似的道理。

2025-02-02 18:24:14 861

原创英伟达跌成这样，是不是AI算力就没用了？

在于它并没有PRM，不对中间的生成步骤做任何干预（MCTS也没用）就是让模型自己的生成COT，然后因为模型被教育要一直思考，就不停的生成，生成多了，突然就到了一个“Aha”时刻，问题就被解答了，其实简单讲就式这个意思，不断的循环RL，对你要做的police，这个policy在这里就指带最初的V3，因为它是个在线的RL，不断的优化策略逼近 output reward最高的标准（它连reward模型都没有，因为是GRPO，GRPO本质上是一种DPO，纯靠偏好function来做RL的）

2025-01-28 14:24:08 977 1

原创 2025第一篇文章diffussion model与time test inference

不是我不更新，找到值得写的东西我还是会更新的这个是我2024年年末的展望，基本都应验了第二条不值得称道，但是2025年做通用模型的会越来越少，这也是没办法的事情2025年开年的一大预测其实也是结合2024年年底的时间强化学习的动作空间搜索（不一定非得是MCTS）会在2025年在更多的模型架构上启动今天这不就来了吗谢赛宁和Google一起整一个论文你，发现time test inference在diffusion model 一样很牛B。

2025-01-19 23:09:58 822

原创解读DeepseekV3

(主要是后训练阶段)它模型下载下来看起来还能行啊，也就不到700G，那正常671B的参数，根本不可能这么点显存占用，因该1.4T左右，这是因为它原生就FP8出的，这大概是我知道的第一个原生之直接出FP8的模型，Meta说很早就用FP8训练了，那Llama3啥的也默认都BF16的，有些特定的模型FP8 GPTQ/AWQ过,像它这么激进的应该是第一个。d_c 表示压缩后的维度，远小于 d_h * n_h，所以你kv对就小了呗，因为小了，所以占显存也少了，推理的时候kv_cache也少，推的也快，这下看懂了吧。

2024-12-27 23:54:51 2356

原创不谈O3，来聊聊如何解决LLM安全问题之审慎对齐

这是一种简单的混淆手段。然后基本上一次输出的这个COT和output肯定有很多的问题，这个时候第二个模型上场了，就是RL的模型，这里叫G_RM（它在判分的时候也参考spec来决定分高还是低）, 但是它这个只是给输出打分，分不高的都fliter掉，留下生成的比较好的数据，数据生成够了，就给G_base做 SFT去了，不好的重弄，相当于一个数据飞轮。总而言之，输入到 Gbase 的 spec 是根据提示的安全类别定制的安全规范，它包含内容策略、风格指南以及其他与安全相关的说明，用于指导模型生成符合规范的回复。

2024-12-22 17:57:36 1019

原创 OpenAI最新推出的RFT是什么？

牛逼版：不是见得ReFT，当然ReFT肯定得做，毕竟O1也一样要PPO，ORM的RL，这都是其中的一环，但是O1内部可以把你输入的领域知识（前提是带COT步骤的，当然ReFT也得带，不然RL什么呢？然后就没了，那下次有同样的问题，或者语义上非常类似的，你问问还是可以的，稍微扩展一下，是没用的，另外即使语义接近的，比如"月球为什么不是方的"，它也有概率答错。因为对结果的监督，其实是RL的上一代玩法，说对O1能微调啥的，我信，但是O1的能力是基于过程的RL，如果你就给我个结果，不给过程肯定是不行的啊？

2024-12-07 11:57:28 744

原创 OpenAI的Triton能替代Nvidia的CUDA吗

- 为 CUDA 平台定义自动调优配置。- 确定参考库为 cuBLAS。3.

2024-11-10 09:41:52 1264

原创投机采样的显性化——OpenAI新feature:Predicted Outputs

对用户的好处，那自然不必说，因为模型分为input和output token，你把本来应该output，token by token推理的output，给转成input了，input就可以prefill也就是玩kv-cache，也就可以被并行计算，那你说快不快，这也就节省了推理延迟，同时理论上，是省钱的，因为input token便宜，output贵。小模型生成了接下来的n个标记，然后在大模型上进行n个并行推理，具体为：Prompt，Prompt + ST1，Prompt + ST1 + ST2 …

2024-11-08 22:50:49 1021

原创 Waymo的EMMA给多模态端到端自驾指引了方向

最近Waymo发的论请问你EMMA端到端确实在自动驾驶届引发了很大的关注，核心的原因是它采用的端到端模型是基于Gemini Nano的语言模型，目前看现在做端到端方案的，就它和特斯拉是语言模型为底座来实现多模态视觉输入的。端到端多模态自动驾驶的意思，不是艾玛电动车论文地址：2410.23262先看看他是怎么做的第一：感知层面，它纯视觉，没有雷达之类的输入。

2024-11-02 21:05:32 1087

原创纯研究O1的论文都发出来了，让我想起来研究红楼梦的红学

有点意思的论文 2410.13639简而言之就是曼彻斯特大学，浙大和中科大还有一些开源的项目组一些一起研究OpenAI O1的人，来发O1为什么牛B的论文正常，研究红楼梦毕竟也有红学（我是一集红楼梦也没看过，书和电视都没看过)。。。文章主要讲分析猜测和评估OpenAI的推理模式在不同任务上的效果同时也利用不同的模型比如GPT4o，Gemma，LLama, Qwen等尝试利用分析出来的O1的推理方式。

2024-10-29 19:23:55 957

原创强化学习入门到不想放弃-5

也就是折扣系数，这个理解起来也不难，比如你做了一个动作不光对当前的state s有影响，也会对之后的state都会有影响，引申的含义就是当前的状态也会影响到之后状态所获得的奖励，但是当下的奖励的重要性一定会大于未来的奖励，γ的取值范围也是0到1（不能是1），比如0.4,0.6，理论上越近折扣系数应该越高，这个也好理解，列成式子就是。圆形的有的有一个后续，有的有多个候选选择（概率），不同的action，有不同的奖励得分，比如刷facebook就扣1分-1，比如学习就加10分之类的。

2024-10-26 00:32:01 886

原创 GPT4o Realtime voice功能的复现路径

因为LLaMA-omni实际上在输入侧就一个voice input，但是文章里面的prompt其实也提示了，这里还有个text input的embedding，这就涉及到模态融合embedding的融合了，只不过这里做的特别巧妙，但是在GPT4o因为它的模态更多，更复杂，所以对模态的embedding要求更高，因为embedding不可能无限长，所以为了兼容视觉和语音，GPT4o的text embedding长度也被压缩了。

2024-10-16 15:14:08 850

原创怎么理解Contextual-Retrieval ？（顺手讲一下prompt-cache）

如上面所示，原始得chunk，是两个"The"，导致不管是embedding还是BM25都抓不出来它，那要是把original_chunk，通过某种手段，给转换成下面这种contextualized_chunk，把上下文信息给注入到chunk离，这下，如果还是刚才得问题，那必然是一问一个准。有人说用Hybrid RAG是不是能强点，比如上图，此时，你是加BM25 关键字，还是加Graph-RAG都没啥用，你懂得，因为回答是一系列得"The"指代，并没有和问题中得描述有关键字匹配，也没法建立节点和边得关系。

2024-10-10 23:28:47 1362

原创强化学习入门到不想放弃-4

3- Reward：Agent默认如果对环境的规则没有任何概念的话，它是不知道如何做的，但是比如弄洒了水咋桌子以上，这种的行为，其实就是一个减分项，如果我们认为洒水要-100分，而把水擦干会得200分，那在之后Agent于环境的操作就不会洒水了，而发现别的水洒了，它会擦干，其实就有点像小孩对这个世界刚开始的认识差不多，是靠一些奖惩机制来了解世界的。2- Action：就是对环境执行的动作，Action对环境执行了动作以后，环境就改了，比如把水给洒桌子上了，那state 也就是环境的状态，也就变了。

2024-10-07 22:25:24 732

原创 CPU上推理矩阵乘不厉害，那么查表呢？MS的新推理方法T-MAC

W（权重矩阵，int8）: | 1 | -3 | 6 | | 4 | 8 | -4 | | 0 | 2 | -2 | A（输入激活矩阵，int8）: | 4 | 1 | | -6 | 4 | | 3 | -5 |就是先把之前的矩阵打散，然后再给化成小的矩阵，比如都化成2*2的小矩阵，这样容易提升查找的命中率，然后为了优化内存的存储方式，再做一个permutation，最后可能就这样（随便举个例子）

2024-10-01 20:05:47 958

原创神神叨叨的OpenAI和神神叨叨的草莓

原来的RL，它不是一点也学不到，但是它无法对每一步都研究的特透，有人可能拿围棋的AlphaGO跟我抬杠，这个例子其实不错，但是首先围棋它和你解决AGI这种通用问题不一样，第一它有严格的规则，而且理论上来讲就那么个棋牌，是有固定的讨论，所以你只要给它足够的把数，让它硬搞，它是能学到某些隐空间里定义的套路，但是对于NLP这种动辄就把人类社会的所有知识点都拿来pretrain的业务，你让它像Alpha Go这样死命练是不够的，更别提好多数据集了的答案甚至都是错的。也会对产出最终答案的正确性起到非常大的作用。

2024-08-29 17:14:26 1065

原创详解MS的GraphRAG的实现流程

社区检测提供显式的社区结构，帮助我们在图谱中理解不同实体如何形成群体。图谱嵌入提供隐式的语义表示，增强图谱在查询阶段的搜索能力。提到Node2Vec大家可能比较乱，word2vec好理解，你把Node2Vec干么呢？那你想想你word2vec是为了干么呢？找语义相似性对不？那Node2Vec不也一样吗，近似的node会在隐空间距离更近，聚类不就好弄了么，其实就这么点事，看我的文章是不是一下子就明白了Phase4。

2024-08-21 15:35:33 1243 1

原创如何优雅的薅羊毛之Flux.1免费使用还支持中文prompt

图非常好，中文进，出完美图，但是分辨率还是和刚才一样有点问题，不知道是不是API的问题，还是我使用API的问题，回头再看吧，反正可用。用这个方法，不管是任何DIFY原生不支持的API或者tool，都可以直接加入到DIFY的tools里面，还是挺方便的。然后创建一个4节点的工作流，在staret节点上，选择输入，我们这里写3个一个是prompt一个是模型的长一个是宽。图很好，分辨率有问题，似乎我写的512*512的*号在这里没被识别，无所谓了，一会再调。Claude干活很利索，直出，改我都懒得改，拿来就用。

2024-08-19 09:48:57 645

空空如也

空空如也