自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1375)
  • 资源 (4)
  • 收藏
  • 关注

原创 【LLM】多模态LLM综述MultiModal Large Language Models

note(一)现有的 MM-LLM 的趋势:(1)从专门强调 MM 理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);(2) 从 MM PT 提升到 SFT,然后到 RLHF,训练管道进行连续细化,努力更好地与人类意图对齐并提高模型的会话交互能力(例如,BLIP-2 → InstructBLIP →DRESS);(3) 实施多样化模态扩展(例如,BLIP-2 → X-LLM 和 InstructBLIP→X-In

2024-06-02 13:05:46 5194 8

原创 【论文笔记】GraphSAGE:Inductive Representation Learning on Large Graphs(NIPS)

- GCN不能泛化到训练过程中没有出现的节点(即属于 $transductive$ 直推式学习,若加入新节点则需要重新训练模型),既然有新增的结点(一定会改变原有节点),那就没必要一定得到每个节点的固定表示。而GraphSAGE就是为了解决这种问题,利用Sample(采样)和Aggregate(聚合)两大核心步骤,通过利用学习到的聚合函数,得到一个新节点的表示。- 本文先介绍GraphSAGE向前传播过程(生成节点embedding),不同的聚合函数设定,然后介绍无监督学习和有监督学习的损失函数和参数学习

2021-10-06 21:11:58 2477 13

原创 【VLM】HopChain视觉语言推理多跳数据合成框架

【数据合成方案进展】讲得是多跳视觉语言推理数据合成框架,用于应对视觉语言模型(VLMs)在长思维链(CoT)推理中的错误累积以及大多数 RLVR 视觉语言训练数据缺乏全程依赖视觉证据的复杂推理链的问题。工作在《HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning》,https://arxiv.org/pdf/2603.17024,看核心几个点:1)数据定义:VLMs 以图像 + 文本查询为输入,生成思维

2026-03-22 21:12:34 365

原创 【RL】Deep Research Agent 训练经验探索

一、Deep Research Agent 训练【Deep Research Agent 训练经验探索】Deep Research智能体通过多轮检索、证据聚合和决策生成解决知识密集型任务,RL 是优化其长 horizon 交互行为的关键方法,但现有训练方案碎片化,难以明确性能驱动因素,所以可以做个工作,以 “预测准确率、训练稳定性、推理成本” 为统一评估框架,拆解Deep Research究智能体 RL 训练的提示模板、奖励函数和策略优三大维度,明确各组件对性能、稳定性、成本的影响,从提示模板、奖励函数、

2026-03-21 00:39:50 226

原创 【LLM】openclaw相关项目汇总(skills|应用)

一、openclaw用于表格分析二、领域openclaw skills三、openclaw安全四、生成学术海报五、OpenClaw Medical Skills六、论文自动生成七、搜索AI Search Hub八、自动分析论文九、使用RL增强OpenClaw能力十、openclaw记忆项目十一、相关厂商clawReference一、openclaw用于表格分析【openclaw用于表格分析项目】基于 FastAPI + ReAct 流式智能体 + 多智能体并行 + 技能自学习的表格

2026-03-21 00:35:58 446

原创 【LLM】Claude Code使用指北

一、Claude CodeClaude Code 的核心不是"回答",而是一个反复循环的代理过程:```python收集上下文 → 采取行动 → 验证结果 → [完成 or 回到收集] ↑ ↓ CLAUDE.md Hooks / 权限 / 沙箱 Skills Tools / MCP Memory```![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/d4b

2026-03-16 00:04:14 317

原创 【MLLM】Agent-GUI之MobileAgent模型

提出了GUI-Owl-1.5,一个多平台的本地GUI代理模型,支持桌面、移动设备、浏览器等多种设备的自动化操作。通过Hybrid Data Flywheel、统一的代理能力增强和跨设备环境强化学习扩展,GUI-Owl-1.5在20多个GUI基准测试中取得了最先进的性能。开源发布GUI-Owl-1.5将推动GUI代理在多平台设备自动化中的应用。- 在 browser 这类更长程、更需要规划的任务上,thinking 往往明显优于 instruct,但在有些 GUI/multi-platform benchm

2026-03-15 14:56:59 600

原创 【LLM】Vibe Coding时代下的代码思维

从 写代码的人,升级成 能定义问题、拆解系统、约束 AI、验收结果的人。既懂业务和系统,又能高效驾驭 AI,把模糊需求变成可靠交付。软件工程精力从传统的样板代码编写、基础CRUD/路由开发等低价值重复性工作,转向架构设计、隔离审计、策略规范、验证与监控等高价值的架构相关工作。从代码实现者,升级成系统设计者,练习四种能力:分层、接口、边界、变化点抽象。会写模块、设计模块关系、设计可演进的系统。文章目录note一、 Vibe Coding综述二、怎么做1、对开发者的新要求2、六个设计能力3、具

2026-03-14 19:21:50 405

原创 【LLM】LitBench:创意文本评估Benchmark

创意写作虽然主观,但仍然可以通过高质量的人类偏好数据训练出可靠的 reward model;而且这种专门训练的 reward model,比直接拿强闭源 LLM 当 judge 更准。做了一个专门评测创意写作 judge 的 benchmark:LitBench。数据来自 Reddit 的 r/WritingPrompts,本质上利用社区 upvote 作为“人类偏好”的弱监督信号。他们构建了:2,480 对 去偏置、人工标注的测试集43,827 对 pairwise 训练集,用来训练 verifie

2026-03-14 15:11:12 527

原创 【LLM】创意类文本评测维度分析(文学创作、剧情编写、营销文案)

创意任务评测不能只看一个总分,必须分成 3 层:硬性底线层:有没有事实错误、逻辑断裂、明显病句、跑题、违规任务能力层:有没有完成该类任务最核心的目标审美风格层:有没有高级感、感染力、记忆点、文学性,是否有“机器味”文章目录note一、统一评测框架1)评分结构2)评分方式A. 维度打分(绝对分)B. 两两比较(Pairwise)二、文学创作评测体系文学创作评测表(100分)文学创作的扣分项 / 一票否决项文学创作更科学的评测建议三、剧情编写评测体系剧情编写评测表(100分)

2026-03-12 00:23:37 418

原创 【LLM】Agent RL训练和推理

奖励函数: - ReActFormat:引导模型学会"说话的格式"——必须有 `<think>` 思考 + `Action + Action Input` - ReactORM:引导模型学会"说话的内容"——函数名和参数必须正确@[toc]# 一、训练数据`LLM-Research/xlam-function-calling-60k:grpo`数据样本信息:```python─────────────────────────────────────────────────────

2026-03-09 00:12:49 233

原创 【LLM】Openclaw测试评估PinchBench

评估 LLM 作为 OpenClaw 编码代理的基准测试,目标是通过在不同模型上运行统一的真实任务,从成功率、速度、成本三个维度量化模型表现,帮助开发者为 OpenClaw 选择适配的 LLM 模型。基于 Next.js、React、Tailwind 搭建的排行榜网页在:https://github.com/pinchbench/leaderboard,基准测试运行器、任务定义及评分逻辑地址在:https://github.com/pinchbench/skill,基于 Cloudflare Workers

2026-03-08 22:53:23 919

原创 【LLM】Labor market impacts of AI

Anthropic 发布 AI 劳动力市场影响报告,提出“observed exposure”(观测暴露度)新指标。该指标结合 LLM 理论能力与 Claude 真实使用数据,重点评估任务自动化程度。使用Anthropic经济指数中的实际使用数据,计算每个职业的任务在专业设置中看到的自动化使用情况, Observed Exposure =∑( Task Coverage × Time Fraction )∑ Time Fraction Observed Exposure = ∑ T

2026-03-07 17:48:19 364

原创 【RL】ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

论文核心思想:把 RL 训练时间大幅延长,并设计稳定训练机制。长时间 RL 会出现训练崩溃:可以周期性重置 reference policy,即定期把 reference policy 更新成当前模型(既能保持KL 正则化,又不会阻止模型继续学习)提出Reasoning Boundary(推理能力边界,一个模型能够解决的问题集合),RL可以将该边界扩展RL 的收益和 base model 能力相关:base model 太强→ RL 收益小base model 太弱→ RL 学不会base m

2026-03-06 00:11:15 388

原创 【RL】RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs

论文目标:设计一个实验环境,证明 RL 是否真的能学新算法。结论:RL会出现“顿悟式学习”,即Grokking phase transition这篇论文通过DELTA数据集系统地研究了RL在LLMs中的应用,揭示了RL模型在学习能力和泛化能力方面的潜力。研究表明,RL不仅能够提升现有技能,还能解锁全新的推理策略。论文的贡献包括设计了一个受控且多样化的编程问题数据集DELTA,提供了清晰的证据表明RL可以发现参考模型无法执行的策略,并沿探索性、组合性和转化性轴线评估了这些策略的泛化能力。DELTA数据

2026-03-05 22:08:01 359

原创 【LLM】OpenClaw龙虾指北

OpenClaw = 大模型大脑 + 能动手的手脚 + 本地隐私 + 开源免费,帮你把电脑上的重复活儿全自动化。文章目录note一、OpenClaw二、安装和部署1、OpenClaw 安装部署指南一、环境要求二、获取项目三、安装依赖四、构建项目五、运行安装向导六、设备配对七、启动使用八、常用命令速查九、目录结构十、注意事项三、相关命令🚀 启动 Gateway🛑 关闭 Gateway📋 常用命令列表🔧 开发环境命令Reference一、OpenClaw它是

2026-03-01 17:08:12 2445

原创 【Agent】skill介绍和使用教程

Skill 是 Anthropic 推出的可复用工作流封装机制。它解决了 AI 使用中的核心痛点:避免每次都“重新教”AI。痛点:每次使用 Claude 处理周报、数据分析或复杂流程时,都需要重新描述格式、风格和步骤,效率低下且容易出错。解决方案:Skill 将你的工作方法、团队规范和领域知识打包成一个文件夹。Claude 学会一次后,即可按标准自动执行,实现 “Teach Claude once, benefit every time”(教一次,终身受益)。

2026-02-22 19:29:40 2514

原创 【VLM】Qwen3-VL-SFT微调简要流程

一、Qwen3-VL微调训练数据数据集汇总样例展示二、相关实验Reference一、Qwen3-VL微调训练数据数据集汇总数据集 样本数 大小 字段alpaca-gpt4-data-zh 48,818 30.69 MB instruction, input, outputla_te_x_ocr 1,200 15.49 MB image, textvideo_chat_gpt 1,996 0.71 MB video_name, question, answer总计 52,014 ~47

2026-02-21 16:57:14 788

原创 【LLM】Agent-SFT微调训练简要流程

tool_response 不参与loss计算思考链是否加入loss计算?可选择:train(提升推理能力)mask(避免过拟合cot)ms-swift框架训练中,tools字段将在训练/推理时和{"role": "system", ...}"部分组合,根据agent_template组成完整的system部分。Agent SFT 的本质是将多步决策过程(tool selection + parameter generation + response synthesis)建模为条件语言建模问题,通

2026-02-21 01:02:08 702

原创 【LLM】ROLL团队的Agentic RL训练坑点

为什么Agentic RL比传统RLVR更难?传统RLVR(如解数学题):是“单步赌博机”问题。模型给出答案,获得奖励,干净简单。Agentic RL(如网页导航、工具调用):是“多步交互式决策”问题。模型需要在稀疏、延迟的奖励信号下,在动态环境中持续行动,并承担长程信用分配的责任。本质区别:从“会回答”的模型,升级为“会行动”的模型。2. 核心工程挑战与解决方案首先在 ROLL 中构建了一套环境管理器,并清晰地划分了三个核心组件之间的交互边界:ROLL(训练框架)、iFlow CLI(Agent

2026-02-20 16:45:07 769

原创 【VLM】Qwen3-VL模型架构和训练流程

Qwen3-VL,提供稠密型(2B/4B/8B/32B)和混合专家型(30B-A3B/235B-A22B)两种变体过滤方面,去除噪声、低对齐样本,确保数据质量与多样性。模型架构方面,使用DeepStack 跨层融合,提取视觉编码器多中间层特征,通过轻量残差连接注入 LLM 对应层,强化视觉-语言对齐,保留从低级到高级的丰富视觉信息。通过集成高质量的多元模态数据迭代和架构创新(如增强的交错MRoPE、DeepStack视觉-语言对齐和基于文本的时间对齐)其原生支持256K令牌的交错序列,使其能够在长复杂

2026-02-19 11:19:34 1215 1

原创 【MLLM】Qwen3.5模型和推理优化

✦ 基于混合结构,397B总参/17B激活,能力匹配 >1T 参数的 Qwen3-Max;✦ 原生多模态设计,同量级下多模态任务表现优于 Qwen3-VL;✦ 覆盖 201 种语言;✦ 在代码生成、智能体推理与多模态理解方面表现卓越;文章目录note一、Qwen3.5模型1、效率优化2、泛化能力提升3、多模态能力提升二、LLM infra优化Reference一、Qwen3.5模型1、效率优化在 32k 上下文长度下,Qwen3.5-397B-A17B 的吞吐量达到 Qwen3

2026-02-16 20:01:15 1906

原创 【LLM-RAG】NemotronColEmbedV2多模态emb模型

RAG系统对文档检索的需求提升、传统OCR预处理丢失视觉信息,所以,NVIDIA提出NemotronColEmbedV2,面向视觉文档检索的latent interaction多模态嵌入模型系列【存储开销呈千倍级增加(需存储文档的多 token 嵌入,而非单向量)、推理延迟高(需计算查询与所有文档的 token 级相似度,依赖支持 MaxSim 操作的专用向量数据)、模型尺寸越大,嵌入维度越高,索引和推理的计算成本越高,例如 100 万张文档图片,llama-nemoretriever-colembed-1

2026-02-13 17:29:36 586

原创 【Math】数学知识点串联

你想研究的问题 → 驱动你选择合适的数学工具:研究“变化” → 导数/微分(基础) → 升维到“多因素变化” → 梯度/偏导(优化核心)研究“累积” → 积分(基础) → 升维到“区域累积” → 重积分/线面积分(物理、几何应用)研究“动态规律” → 微分方程(预测未来) → 需要“计算函数” → 无穷级数(近似与分解)研究“多变量关联系统” → 线性代数(数据结构与变换) → 抓住“系统本质” → 特征值/二次型研究“不确定性与数据” → 概率分布(建模随机) → 从样本“推断总体” → 统计

2026-02-13 16:11:11 742

原创 【MLLM】科学领域Innovator-VL多模态模型

架构上,视觉编码器RICE-ViT【区域感知表示学习的ViT变体,融合全局和局部视觉线索,优化目标与OCR区域表示,适配科学图像的符号、标注、空间局部模式等细粒度结构,相比CLIP/SigLIP,在分割、密集检测等视觉任务表现更优】+投影层PatchMerger压缩视觉token+语言模型Qwen3-8B-Base【在STEM、逻辑推理、长上下文理解上表现优异】。在这里插入图片描述2)训练流程上采用预训练→有监督微调(SFT)→强化学习(RL)的分阶段训练策略:step1.预训练语言-图像对齐(

2026-02-13 15:31:32 547

原创 【MLLM】nano-banana绘图

nano-banana相关prompt示例:帮我生成一个8页的连环画,给5岁半的小朋友讲故事用,用中英文标出简短对话,主角是疯狂动物城的两个主角是兔子朱迪・霍普斯 (Judy Hopps) 和狐狸尼克・王尔德 (Nick Wilde)的故事,需要多角度展现主角,保持主角的一致性请为《黄鹤楼》生成一个古老的手稿页,有星星和旁注的墨水图,书页风格

2026-02-07 16:44:37 96

原创 【Agent】Toward Efficient Agents

高效记忆【记忆构建:分为工作记忆(文本压缩、潜在状态存储,如COMEDY的对话蒸馏、MemoryLLM的潜在内存池)和外部记忆(基于项目、图谱、分层结构,如MemoryBank的遗忘曲线管理、Zep的时序知识图谱)->记忆管理:规则式(固定规则剪枝,低成本但缺乏适应性)、LLM式(动态决策增删改,自适应但耗资源)、混合式(规则触发+LLM优化,如MemoryOS的分层管理)->记忆访问:通过规则增强、图谱检索、LLM/工具驱动、分层检索等方式,精准提取关键信息,降低token消耗->多智能体记忆:支持共享记

2026-02-07 16:39:02 673

原创 【LLM】Clawbot的memory记忆机制

【Clawbot的memory记忆机制】设计理念以透明化(Markdown格式可编辑)、搜索优先(按需调取记忆)、持久化存储(关键信息落盘)、混合搜索(语义+关键词)为核心设计理念。核心机制7个。1)上下文与记忆区分:上下文是单请求临时数据(含系统提示、对话历史等,受模型token限制),记忆是磁盘存储的持久化数据(Markdown文件+会话记录,无界且低成本)。2)双层存储结构:Layer1为每日日志( memory/YYYY-MM-DD.md ,记录日常笔记),Layer2为

2026-02-07 16:33:44 170

原创 【LLM-OCR】Dolphin-v2文档解析模型及OCR进展

看字节的Dolphin-v2模型,基于Qwen2.5-VL-3B训练,主要讲的是自适应解析,跟ppocrvl-1.5一样,都在占形变文档处理的坑,通过更细粒度的元素检测(21 个类别)、绝对坐标表示、阅读顺序预测以及语义属性提取来增强版面分析,同时引入专门的解析模块用于公式和代码块。【这个是更细粒度的策略。】整体为两阶段架构,三个核心:联合分类、版面分析以及混合内容解析文章目录note一、字节Dolphin-v2模型1、相关模型进展2、Dolphin-v2模型架构二、两阶段1、第一阶段:联合

2026-02-07 16:20:50 937

原创 【LLM】CL-bench:评估LLM学新知识的能力

CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含(Self-contained)的。解决任务所需的所有信息都显式地提供在 context 本身之中:不需要外部检索,也不允许隐藏假设。CL-bench 揭示了一个不能被忽视的现象:当今的前沿语言模型还仍然不会利用 context ,从 context 中学习。文章目录note一、CL-bench覆盖的内容二、CL-bench设计原则三

2026-02-03 20:20:26 634

原创 【LLM】大模型数据清洗&合成&增强方法

数据清洗【数据标准化:统一数据格式,基于提示端到端(LLM-GDO)、代码生成(Evaporate)、智能体辅助(CleanAgent);数据错误处理:检测并修复错误值,提示端到端(IterClean)、函数合成(LLMClean)、任务自适应微调(GIDCL)、混合LLM-ML(ZeroED);数据填补:填充缺失值,提示端到端(CRILM)、检索引导(RetClean)、模型优化(LLM-REC)】;2)数据集成,整合不同来源数据,【实体匹配:关联同一现实世界实体的记录,提示端到端(MatchGPT)

2026-02-02 19:48:59 676

原创 【LLM】多模态智能体Kimi-K2.5模型

原生多模态与早期融合训练:Kimi K2.5 打破"先训文本、后加视觉"的传统范式,采用早期融合策略(预训练早期即以10:90的低比例混合视觉-文本数据)。这种"联合优化"不仅避免了模态冲突,还实现了双向增强——视觉训练竟能提升纯文本推理能力(MMLU-Pro +1.7%),且仅用Zero-Vision SFT(纯文本代码代理)即可激活强大的视觉工具调用能力。Agent Swarm:并行智能体架构,提出PARL(并行代理强化学习)框架,通过可训练的"协调器"动态创建专门化的冻结子代理,将复杂任务并行分解执

2026-01-31 21:37:42 882

原创 【VLA】InternVLA-A1: Robotic Manipulation统一VLA框架

1)理解专家:基于InternVL3或Qwen3-VL多模态模型,将多视图观测(图像)编码为视觉token、语言指令编码为文本token,融合生成环境语义上下文(前缀token h_und);2)生成专家:采用Cosmos CI8×8连续VAE token化器处理图像,先将256×256图像编码为32×32潜特征,再通过卷积层压缩至4×4(仅16个token)以提升效率;基于理解专家的语义上下文,预测未来15帧(约1秒)的场景潜特征,经解码重建为预测图像;3)动作专家:结合语言目标、当前观测(h_und

2026-01-28 21:04:37 339

原创 【Agent】Agentic Reasoning for Large Language Models

Agentic Reasoning for Large Language Models- 自进化推理机制,演化的核心包含两个基本机制:反馈与记忆。反馈为自我修正与优化提供评估信号,使智能体能够根据结果或环境响应来调整其推理策略。记忆则作为持久的基底,用于存储、组织和综合过往交互,从而实现跨任务的知识积累与复用。 - 其中,反思包括三种。反思性反馈,模型通过自我批判或验证来修正其推理;参数化适应,将反馈整合为更新后的模型参数;以及验证器驱动的反馈,通过二元结果信号引导重采样,无需内部反思。@[toc

2026-01-25 23:59:57 908 1

原创 【RL】Absolute Zero: Reinforced Self-play Reasoning with Zero Data

提出了绝对零范式,并通过绝对零推理器(AZR)展示了其在不需要外部数据的情况下,通过自我对弈实现强大推理能力的潜力。AZR在编码和数学推理任务上均达到了最先进的性能,并显示出显著的跨域泛化能力和模型规模效应。未来的研究方向包括探索不同的环境反馈源、扩展到多模态推理、定义或让模型动态学习如何定义任务分布、以及设计探索和多样性奖励。文章目录note一、研究背景二、Absolute Zero![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/5096905b67cc

2026-01-25 22:05:31 1022

原创 【VLM】Visual Merit or Linguistic Crutch? 看DeepSeek-OCR

论文证明了 DeepSeek-OCR 的强性能很大程度上来自语言模型的“语言先验”,而非真正的深度视觉理解,并指出这种依赖使得它在语义扰动或超长上下文下表现脆弱。@[toc]# 一、Visual Merit or Linguistic Crutch?《Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR》,https://arxiv.org/pdf/2601.03714,相关实验数据在https://anonymous

2026-01-25 16:27:16 872

原创 【MLLM】Qwen3-TTS语音生成模型

# note - Qwen3-TTS全面支持音色克隆、音色创造、超高质量拟人化语音生成,以及基于自然语言描述的语音控制,为开发者与用户提供最全面的语音生成功能。- 依托创新的 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器,Qwen3-TTS 实现了对语音信号的高效压缩与强表征能力,不仅完整保留副语言信息和声学环境特征,还能通过轻量级的非 DiT 架构实现高速、高保真的语音还原。Qwen3-TTS 采用 Dual-Track 双轨建模,达成了极致的双向流式生成速度,首包音频仅需等待一

2026-01-24 23:12:13 2028

原创 【VLM】Format Decoupled Reinforcement Learning for Document OCR

格式化文本(公式、表格等)比纯文本熵值高一个数量级,导致模型输出不确定性大、解析准确率低,所以搞了个1)数据层面:构建包含566k样本的多源格式丰富语料,覆盖9类文档,补充格式密集型数据;2)训练层面:基于Qwen3-VL-4B,采用SFT-then-RL两阶段范式,SFT奠定OCR基础,RL聚焦格式优化;3)策略层面:通过熵基数据过滤筛选50%高熵样本,集中优化复杂格式【用SFT模型推理计算样本平均token熵,筛选熵值≥阈值的样本(最优过滤率50%),比无过滤高,过低或过高过滤均会降低性能】;

2026-01-17 23:31:12 237

原创 【BFS】两壶水倒出k升水

凡是“有限状态 + 固定操作 + 最少步数”的问题,本质都是无权图最短路,用 BFS。文章目录note一、题目二、思路三、代码一、题目两瓶水,和可以接水的水龙头,一瓶水是8升,一瓶是5升,怎么倒出4升的水二、思路1、题目本质:在一个有限状态空间里,用一组固定操作,从初始状态走到目标状态,且通常希望步数最少重点:只要同时满足这 4 点,BFS 就是首选:状态是离散的、有限的每一步操作“代价相同”(一次倒水 = 一步)起点固定((0,0))目标状态明确(x==4 或 y==4)

2026-01-16 21:34:41 390

原创 【LLM】高德AMAP Agentic Planning

提出的STAgent模型,通过稳定的工具环境、高质量数据构建和级联训练配方,显著提升了在复杂时空场景中的推理和任务规划能力。实验结果表明,STAgent在领域特定任务和通用任务上均表现出色,展示了其在实际应用中的潜力。该研究不仅为时空智能提供了一个稳健的解决方案,还为其他复杂、开放式的现实世界环境中开发专用代理提供了一种可扩展且有效的方法。- 面向真实时空场景(地图 / 出行 / POI / 路线 / 行程规划)的大模型 Agent- 高质量数据筛选:从 3000 万 query 里筛 20 万,筛选比

2026-01-15 22:43:53 1172

4-消息传递图神经网络.pdf

4-消息传递图神经网络.pdf

2021-06-19

常用算法总结C&C++.pdf

常用算法总结C&C++.pdf

2021-01-14

EdgeRec边缘计算在推荐系统的应用

EdgeRec边缘计算在推荐系统的应用

2022-02-24

基于高阶和时序特征的图神经网络社会推荐研究

基于高阶和时序特征的图神经网络社会推荐研究

2023-04-02

Python思维导图.rar

python思维导图,助力学习python知识体系,包含基础知识、列表元组、面向对象模块、数据类型、文件对象、字符串、字典集合等等python知识思维导图

2020-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除