自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1397)
  • 资源 (4)
  • 收藏
  • 关注

原创 【LLM】多模态LLM综述MultiModal Large Language Models

note(一)现有的 MM-LLM 的趋势:(1)从专门强调 MM 理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);(2) 从 MM PT 提升到 SFT,然后到 RLHF,训练管道进行连续细化,努力更好地与人类意图对齐并提高模型的会话交互能力(例如,BLIP-2 → InstructBLIP →DRESS);(3) 实施多样化模态扩展(例如,BLIP-2 → X-LLM 和 InstructBLIP→X-In

2024-06-02 13:05:46 5300 8

原创 【Agent】Towards General Agentic Intelligence via Environment Scaling

这篇论文提出了一种通过系统环境扩展和agent经验学习来提升通用agent智能的方法。通过程序化地将工具实例化为可执行的代码,并在数据库结构化的环境中进行操作,实现了大规模的可验证轨迹构建。- 基于这些环境,引入了两阶段agent经验学习框架,使agent能够在一般域中学习基本的工具使用技能,并在目标垂直域中进行细粒度训练。- 广泛的实验结果表明,AgentScaler系列模型在开源模型中达到了最先进的性能,并在某些情况下与更大或闭源的对应模型相当。未来的研究方向包括在完全模拟的环境上集成强化学习和扩展

2026-05-05 21:35:46 287

原创 【WM】LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels

LeWorldModel 的训练目标就是:从 raw pixels 学一个不会坍塌的 latent 状态空间,并在这个 latent 空间里学习“当前状态 + 动作 → 下一状态”的动力学模型。稳定训练的trick:高斯正则防坍塌阶段【对 latent embedding 加 Gaussian regularizer,使表示分布保持展开,避免所有图像被编码成同一个向量】在机器人控制、智能体规划里,很多时候不需要生成一张完整未来图片。LeWorldModel 在 latent 空间预测未来状态,所以更轻量

2026-05-05 18:15:04 258

原创 【多模态RAG】Purifying Multimodal Retrieval

现有 MRAG 框架均采用文档级检索与重排,默认文档内所有内容同等有效,但是检索文档含大量无关、冗余、矛盾噪声,引发 MLLM 幻觉,图像仅小区域感兴趣(ROI)有用,文本仅少量句子相关。所以,搞了个Retrieve–Rerank–Select–Generate四阶段 pipeline,新增片段级筛选模块净化证据,目标是在量化证据的边际效用,从而能够过滤掉通常会损害下游推理的无关、冗余或矛盾噪声多模态RAG去噪:碎片筛选阶段【使用训练完成的轻量学生选择器,对混合候选池中所有条目进行效用打分,按得分从高到低

2026-05-05 16:51:23 294

原创 【LLM】DeepSeek-V4模型架构和训练流程

DeepSeek-V4优化点:1、混合注意力架构:我们设计了一种结合压缩稀疏注意力(Compressed Sparse Attention, CSA)与重度压缩注意力(Heavily Compressed Attention, HCA)的混合注意力机制,显著提升长上下文处理效率。在百万 Token 上下文场景下,DeepSeek-V4-Pro 相较于 DeepSeek-V3.2,单 Token 推理所需的 FLOPs 仅为其 27%,KV 缓存占用仅为 10%。2、流形约束超连接(Manifold-Co

2026-05-01 11:10:41 786 1

原创 【Agent记忆】MSTAR:Every Task Deserves Its Own Memory Harness

它要解决的是传统通用记忆系统在不同任务(对话、法律、医疗等)上适配性差、效果不佳的问题。它将记忆系统建模为可进化的Python程序,通过react循环,为每个任务自动优化专属的记忆结构,实验效果优于固定结构。MSTAR:给几个初始 memory 程序 -> 让 Agent 用这个 memory 做任务 -> 记录成功和失败案例 -> 让 Coding Agent 改代码 -> 编译 + smoke test + 限制检查。然后把新程序加入候选池,继续迭代。不是给所有 Agent 都套一个固定记忆模块,而

2026-04-28 22:37:07 372

原创 【Agent】Openclaw架构(Gateway|subagent|工具过滤|Sandbox)

OpenClaw 的 SubAgent 就是一个带注册表的"任务外包系统"——父 Agent 把子任务打包成 `SpawnSubagentParams`,扔给注册中心,注册中心拉起独立会话执行,执行完通过 announce 队列把结果还给父 Agent,整个过程有超时、孤儿恢复、清理等保障机制。- openclaw架构总结: - 核心架构:以 Gateway(网关) 为中心的控制平面,统一管理所有通信与调度。 - 大脑引擎:事件驱动的Agentic Loop,处理从接收、推理、调用工具到回复的全流程。

2026-04-28 22:04:46 808

原创 【Agent】Claude code架构和源码粗读分析

claude code确实在工程层面做到很好(T-T 感觉我和模型越来越远了),比如子agent的设计、分为同步/异步任务等Agent = 主循环 + 工具体系 + 权限体系 + 状态管理 + 子任务编排 + UI/体验 + 工程优化Sub-Agent 编排 = Fork 继承上下文 + prompt cache 优化 + Resume 状态恢复 + 后台任务管理 + Agent 间通信 + 默认隔离。它把多个 Agent 组织成一个可控的并发运行时五个子agent:GeneralPurpose 负责

2026-04-27 22:16:15 599 1

原创 【VLM】结合Python沙箱的以图思辨S1-VL模型

基于Qwen3-VL-32B-Thinking做的面向数学、物理、化学、天文、地理、生物六大学科的科学多模态推理模型,主要特点是Python 沙箱执行图像裁剪、缩放、标注等代码,多轮迭代推理数据源整合【开源轨迹Thyme/V-Thinker+内部高分辨率图表/几何推理数据,Thyme(hinkBeyondImages,让模型自己写Python代码裁剪、放大、旋转、调对比度、做计算,在沙箱里执行,再继续推理,开源了大量代码驱动的图像交互轨迹)/V-Thinker(Interactive Thinking w

2026-04-25 23:40:20 347

原创 【Agent】Long-horizon task的memory系统

Long-horizon task需要memory,但一直觉得memory是个很工程的问题agent记忆的三大门派:数据库派、文件派、模型派openclaw:读取记忆是 Function Call,写入记忆是 Hook 自动化机制,不是Function Call调用的 Tool。这种设计的好处是:写入记忆是系统自动管理的,不需要显式决定"现在要保存记忆",而是在会话切换时自动保存上下文。具体检索完memory后考虑:冲突:当检测出两个记忆相互矛盾的时候,该怎么解决?随时间的衰减:旧记忆权重怎么降?

2026-04-24 23:40:01 439

原创 【LLM】Deep Research数据构建和训练

Deep Research 的训练数据必须专门构造:数据里的每道题,必须让模型学会多步推理、动态调整搜索策略、在不确定中继续前进。四种Deep Research数据构建方法:SailorFog-QA就是根据知识图谱构建多跳推理数据。“答案可验证”是因为在“知识图谱路径”走“推理跳数”可以构造多跳推理数据。WebFrontier:从seed数据进行泛化(实体替换、新增条件、比较合并、否定反转)WebShaper:先focus推理链的生成,用知识投影,每步有(属性查找、关系跳转、比较、否定)等,推理结构

2026-04-22 22:37:32 306

原创 【VLM-Agent】移动端智能体MobileAgent训练数据合成

核心还是看数据合成思路,包括任务指令合成(先造出合理、复杂、多步骤的用户任务)、轨迹合成(让智能体一步步执行,造出带错误恢复的操作轨迹),最终产出任务指令+完整操作轨迹(含思维链),构成移动智能体训练数据。- 轨迹合成,就是在合成移动智能体执行任务的 step-by-step demonstration,不只是成功路径,还包括做错后被 expert 拉回来的 error-recovery 轨迹,用来训练 agent 的真实执行与纠错能力- error-recovery demonstrations举例:

2026-04-20 21:54:27 380

原创 【Agent】构建Harness | hermes-agent框架组件

Harness-agent实现了一个完整的 “经验提取 → 知识存储 → 智能检索 → 上下文注入 → 执行验证 → 自动改进” 闭环。是内置闭环自学习机制的项目。不是只做 task summary,而是在做一个 persistent memory + skill induction + retrieval + user modeling 的闭环。更多是工程优化Skills 系统让 AI Agent 像人类专家一样积累经验——把成功的做法写成 SOP,在使用中持续修订,并且可以分享给其他人。文章目录

2026-04-18 16:31:32 444

原创 【LLM后训练】看Off-Policy and On-Policy Learning

以轨迹来源为核心维度,将大模型后训练,按照轨迹来源分类,可以分为离策略学习【基于外部提供轨迹更新模型】、在线策略学习【基于当前模型生成轨迹更新模型】后训练本质是对模型行为的结构化干预,所有后训练方法(SFT、偏好优化、RL、蒸馏等)最终都在改变模型的轨迹分布,而非仅仅拟合标签或优化单一目标。其学习信号包括Token、偏好、奖励、验证器、教师指导等。文章目录note一、研究背景二、研究方法1、Off-Policy Post-Training2、On-Policy Post-Training三、

2026-04-16 21:21:42 437

原创 【LLM】GLM-5: from Vibe Coding to Agentic Engineering

GLM5:海量通用语料打底 → 长上下文和 Agent 数据强化 → 用监督学习塑形 → 用多阶段 RL 提升推理和执行能力 → 最后用蒸馏把各阶段能力重新“缝合”起来,避免遗忘thinking模式:单轮内部:是不是支持 interleaved thinking。也就是一边想、一边调工具、拿到结果再想。跨轮之间:是不是支持 preserved thinking,也就是上一轮那些 thinking,到了下一轮还在不在上下文里。hybrid reward system,将三类奖励信号结合起来使用:ru

2026-04-15 16:02:43 390

原创 【LLM应用】深度研究报告生成prompt

# 横纵分析法 Deep Research Prompt> 使用方法:将下方 Prompt 复制到任何支持 Deep Research 的模型中,只需修改开头的「研究对象」一行即可。---## Prompt 正文```> 横纵分析法 by andy## 变量定义研究对象 = 「此处替换为你的研究对象名」(以下所有提到「研究对象」的地方,都指代上面定义的内容。使用时只需修改等号右边的内容即可。)---你是一位资深的技术与商业研究分析师。请使用「横纵分析法」对「研究对象」进行一份完整的深度研

2026-04-14 10:31:31 117

原创 【LLaDA】Large Language Diffusion Models

这篇论文介绍了LLaDA,一种从头开始训练的大规模扩散语言模型。LLaDA展示了强大的可扩展性、上下文学习能力和指令跟随能力,达到了与领先的LLMs相当的性能。此外,LLaDA提供了双向建模和增强的鲁棒性,有效解决了现有LLMs的一些局限性。- LLaDA不是像 GPT/LLaMA 那样 从左到右一个 token 一个 token 生成,而是:先把句子里的 token 随机 mask 掉,模型去预测这些 mask 的 token,推理时从“全 mask”开始,逐步把句子补出来- LLM 的 in-con

2026-04-13 19:59:29 408

原创 【MLLM】文档多模态MinerU2.5-Pro模型

【文档多模态模型进展】MinerU2.5-Pro更新,主要特点是保留 MinerU2.5 的 1.2B 参数架构,主要改动点是训练数据从不足 1000 万页扩至 6550 万,工作报告在:MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale,https://arxiv.org/pdf/2604.04771,代码在: https://github.com/opendatalab/MinerU,模型权重在: h

2026-04-10 23:14:21 518

原创 【MLLM】多模态理解benchmark:MMMU-Pro

paper观点:多模态模型最难的,不是 OCR,也不只是看图,而是“图文混合场景下的联合理解与推理”(比如图片中含有文字的纯图输入)。总体上 CoT 通常能提升表现,尤其在 Tech/Engineering、Science 这种更偏结构化推理的领域更明显;但在一些更偏主观解释的领域,收益就小,甚至可能变差。也就是说,CoT 更像“推理型题目加成器”,不是全领域通杀。主要通过三步增强难度:过滤 text-only 可解题、把选项从 4 个扩到 10 个、再加入 screenshot/photo 的 vis

2026-04-09 15:02:35 408

原创 【MLLM】Gemma 4模型简介和选择

Google DeepMind 正式发布了其迄今为止最强大的开放模型家族 Gemma 4。该系列基于与 Gemini 3 相同的研究成果和技术构建,专门为高级推理和 Agent 工作流设计,Gemma 4 包含 E2B、E4B、26B-A4B 和 31B Dense 四种尺寸,全面支持跨文本、图像和视频的多模态处理,其中较小尺寸模型(E2B 和 E4B)还原生支持音频输入。https://blog.google/innovation-and-ai/technology/developers-tools/g

2026-04-05 00:23:02 262

原创 【MLLM】GraphWalker:Deepresearch用于图像生成

【Deepresearch用于图像生成思路】思路是用于图像生成的多模态深度搜索智能体,进行多跳推理与搜索,以获取图像生成所需的文本知识和参考图像,结论是在KnowGen上使Qwen-Image性能提高约16分,在WISE上提高约15分。GraphWalker: Agentic Knowledge Graph Question Answer-ing via Synthetic Trajectory Curriculum,https://arxiv.org/pdf/2603.28533,https://gen-

2026-04-01 22:18:42 394

原创 【LLM】Attention-Residuals残差注意力

提出了注意力残差(AttnRes)及其可扩展变体块注意力残差(Block AttnRes),用于解决深度方向上的信息聚合问题。通过引入基于softmax注意力的选择性聚合和块结构,Block AttnRes在大规模模型训练中实现了高效的跨层注意力计算,显著减少了内存和通信开销。实验结果表明,Block AttnRes在各种基准任务上均表现出优于基线的性能,验证了其有效性和实用性。注意力残差:原来残差是“所有历史层(上一层表示 + 当前子层输出)一股脑相加”即残差连接,现在改成“对历史层做一次 atten

2026-04-01 20:43:10 461

原创 【RL】Soft Adaptive Policy Optimization(SAPO)

GRPO(token-level clipping)和 GSPO(sequence-level clipping)采用硬剪切(hard clipping):当重要性比率超出范围时,梯度直接被截断。尽管能避免灾难性更新,但有两个固有缺点:学习信号丢失:被剪切区间外的所有梯度全部丢弃。对于 GSPO,只要有少数 token 异常,可能导致整个序列的梯度都被抛弃。难以取得较好平衡:剪切范围太窄 → 大量样本没有梯度;太宽 → off‑policy 梯度噪声破坏稳定性。这在 MoE 模型里尤为明显。SAPO

2026-03-28 16:07:18 426

原创 【RL】MiniMax-M1: CISPO + Lightning Attention

CISPO是2025年6月minimax提出,放到今天还是有价值的。CISPO强化学习:传统 PPO / GRPO 这类方法,在做 token 级 clipping 时,会把一些“低概率但很关键”的 token(这类token一般是反思、转折、纠错、重新检查等字符,类似思维拐点) 更新给压掉,如果都被clip掉,模型就不容易学会真正的长链反思。通过裁剪重要性采样权重而不是更新令牌来稳定训练,从而避免了传统PPO/GRPO算法中的令牌裁剪问题。模型架构优化:它不是纯标准 softmax attent

2026-03-28 01:17:02 431

原创 【VLM】HopChain视觉语言推理多跳数据合成框架

【数据合成方案进展】讲得是多跳视觉语言推理数据合成框架,用于应对视觉语言模型(VLMs)在长思维链(CoT)推理中的错误累积以及大多数 RLVR 视觉语言训练数据缺乏全程依赖视觉证据的复杂推理链的问题。工作在《HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning》,https://arxiv.org/pdf/2603.17024,看核心几个点:1)数据定义:VLMs 以图像 + 文本查询为输入,生成思维

2026-03-22 21:12:34 451

原创 【RL】Deep Research Agent 训练经验探索

一、Deep Research Agent 训练【Deep Research Agent 训练经验探索】Deep Research智能体通过多轮检索、证据聚合和决策生成解决知识密集型任务,RL 是优化其长 horizon 交互行为的关键方法,但现有训练方案碎片化,难以明确性能驱动因素,所以可以做个工作,以 “预测准确率、训练稳定性、推理成本” 为统一评估框架,拆解Deep Research究智能体 RL 训练的提示模板、奖励函数和策略优三大维度,明确各组件对性能、稳定性、成本的影响,从提示模板、奖励函数、

2026-03-21 00:39:50 255

原创 【LLM】openclaw相关项目汇总(skills|应用)

一、openclaw用于表格分析二、领域openclaw skills三、openclaw安全四、生成学术海报五、OpenClaw Medical Skills六、论文自动生成七、搜索AI Search Hub八、自动分析论文九、使用RL增强OpenClaw能力十、openclaw记忆项目十一、相关厂商clawReference一、openclaw用于表格分析【openclaw用于表格分析项目】基于 FastAPI + ReAct 流式智能体 + 多智能体并行 + 技能自学习的表格

2026-03-21 00:35:58 775

原创 【LLM】Claude Code使用指北

一、Claude CodeClaude Code 的核心不是"回答",而是一个反复循环的代理过程:```python收集上下文 → 采取行动 → 验证结果 → [完成 or 回到收集] ↑ ↓ CLAUDE.md Hooks / 权限 / 沙箱 Skills Tools / MCP Memory```![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/d4b

2026-03-16 00:04:14 470

原创 【MLLM】Agent-GUI之MobileAgent模型

提出了GUI-Owl-1.5,一个多平台的本地GUI代理模型,支持桌面、移动设备、浏览器等多种设备的自动化操作。通过Hybrid Data Flywheel、统一的代理能力增强和跨设备环境强化学习扩展,GUI-Owl-1.5在20多个GUI基准测试中取得了最先进的性能。开源发布GUI-Owl-1.5将推动GUI代理在多平台设备自动化中的应用。- 在 browser 这类更长程、更需要规划的任务上,thinking 往往明显优于 instruct,但在有些 GUI/multi-platform benchm

2026-03-15 14:56:59 738

原创 【LLM】Vibe Coding时代下的代码思维

从 写代码的人,升级成 能定义问题、拆解系统、约束 AI、验收结果的人。既懂业务和系统,又能高效驾驭 AI,把模糊需求变成可靠交付。软件工程精力从传统的样板代码编写、基础CRUD/路由开发等低价值重复性工作,转向架构设计、隔离审计、策略规范、验证与监控等高价值的架构相关工作。从代码实现者,升级成系统设计者,练习四种能力:分层、接口、边界、变化点抽象。会写模块、设计模块关系、设计可演进的系统。文章目录note一、 Vibe Coding综述二、怎么做1、对开发者的新要求2、六个设计能力3、具

2026-03-14 19:21:50 472

原创 【LLM】LitBench:创意文本评估Benchmark

创意写作虽然主观,但仍然可以通过高质量的人类偏好数据训练出可靠的 reward model;而且这种专门训练的 reward model,比直接拿强闭源 LLM 当 judge 更准。做了一个专门评测创意写作 judge 的 benchmark:LitBench。数据来自 Reddit 的 r/WritingPrompts,本质上利用社区 upvote 作为“人类偏好”的弱监督信号。他们构建了:2,480 对 去偏置、人工标注的测试集43,827 对 pairwise 训练集,用来训练 verifie

2026-03-14 15:11:12 593

原创 【LLM】创意类文本评测维度分析(文学创作、剧情编写、营销文案)

创意任务评测不能只看一个总分,必须分成 3 层:硬性底线层:有没有事实错误、逻辑断裂、明显病句、跑题、违规任务能力层:有没有完成该类任务最核心的目标审美风格层:有没有高级感、感染力、记忆点、文学性,是否有“机器味”文章目录note一、统一评测框架1)评分结构2)评分方式A. 维度打分(绝对分)B. 两两比较(Pairwise)二、文学创作评测体系文学创作评测表(100分)文学创作的扣分项 / 一票否决项文学创作更科学的评测建议三、剧情编写评测体系剧情编写评测表(100分)

2026-03-12 00:23:37 565

原创 【LLM】Agent RL训练和推理

奖励函数: - ReActFormat:引导模型学会"说话的格式"——必须有 `<think>` 思考 + `Action + Action Input` - ReactORM:引导模型学会"说话的内容"——函数名和参数必须正确@[toc]# 一、训练数据`LLM-Research/xlam-function-calling-60k:grpo`数据样本信息:```python─────────────────────────────────────────────────────

2026-03-09 00:12:49 274

原创 【LLM】Openclaw测试评估PinchBench

评估 LLM 作为 OpenClaw 编码代理的基准测试,目标是通过在不同模型上运行统一的真实任务,从成功率、速度、成本三个维度量化模型表现,帮助开发者为 OpenClaw 选择适配的 LLM 模型。基于 Next.js、React、Tailwind 搭建的排行榜网页在:https://github.com/pinchbench/leaderboard,基准测试运行器、任务定义及评分逻辑地址在:https://github.com/pinchbench/skill,基于 Cloudflare Workers

2026-03-08 22:53:23 1273

原创 【LLM】Labor market impacts of AI

Anthropic 发布 AI 劳动力市场影响报告,提出“observed exposure”(观测暴露度)新指标。该指标结合 LLM 理论能力与 Claude 真实使用数据,重点评估任务自动化程度。使用Anthropic经济指数中的实际使用数据,计算每个职业的任务在专业设置中看到的自动化使用情况, Observed Exposure =∑( Task Coverage × Time Fraction )∑ Time Fraction Observed Exposure = ∑ T

2026-03-07 17:48:19 396

原创 【RL】ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

论文核心思想:把 RL 训练时间大幅延长,并设计稳定训练机制。长时间 RL 会出现训练崩溃:可以周期性重置 reference policy,即定期把 reference policy 更新成当前模型(既能保持KL 正则化,又不会阻止模型继续学习)提出Reasoning Boundary(推理能力边界,一个模型能够解决的问题集合),RL可以将该边界扩展RL 的收益和 base model 能力相关:base model 太强→ RL 收益小base model 太弱→ RL 学不会base m

2026-03-06 00:11:15 414

原创 【RL】RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs

论文目标:设计一个实验环境,证明 RL 是否真的能学新算法。结论:RL会出现“顿悟式学习”,即Grokking phase transition这篇论文通过DELTA数据集系统地研究了RL在LLMs中的应用,揭示了RL模型在学习能力和泛化能力方面的潜力。研究表明,RL不仅能够提升现有技能,还能解锁全新的推理策略。论文的贡献包括设计了一个受控且多样化的编程问题数据集DELTA,提供了清晰的证据表明RL可以发现参考模型无法执行的策略,并沿探索性、组合性和转化性轴线评估了这些策略的泛化能力。DELTA数据

2026-03-05 22:08:01 386

原创 【LLM】OpenClaw龙虾指北

OpenClaw = 大模型大脑 + 能动手的手脚 + 本地隐私 + 开源免费,帮你把电脑上的重复活儿全自动化。文章目录note一、OpenClaw二、安装和部署1、OpenClaw 安装部署指南一、环境要求二、获取项目三、安装依赖四、构建项目五、运行安装向导六、设备配对七、启动使用八、常用命令速查九、目录结构十、注意事项三、相关命令🚀 启动 Gateway🛑 关闭 Gateway📋 常用命令列表🔧 开发环境命令Reference一、OpenClaw它是

2026-03-01 17:08:12 2768

原创 【Agent】skill介绍和使用教程

Skill 是 Anthropic 推出的可复用工作流封装机制。它解决了 AI 使用中的核心痛点:避免每次都“重新教”AI。痛点:每次使用 Claude 处理周报、数据分析或复杂流程时,都需要重新描述格式、风格和步骤,效率低下且容易出错。解决方案:Skill 将你的工作方法、团队规范和领域知识打包成一个文件夹。Claude 学会一次后,即可按标准自动执行,实现 “Teach Claude once, benefit every time”(教一次,终身受益)。

2026-02-22 19:29:40 3829

原创 【VLM】Qwen3-VL-SFT微调流程

一、Qwen3-VL微调训练数据数据集汇总样例展示二、相关实验Reference一、Qwen3-VL微调训练数据数据集汇总数据集 样本数 大小 字段alpaca-gpt4-data-zh 48,818 30.69 MB instruction, input, outputla_te_x_ocr 1,200 15.49 MB image, textvideo_chat_gpt 1,996 0.71 MB video_name, question, answer总计 52,014 ~47

2026-02-21 16:57:14 868

4-消息传递图神经网络.pdf

4-消息传递图神经网络.pdf

2021-06-19

常用算法总结C&C++.pdf

常用算法总结C&C++.pdf

2021-01-14

EdgeRec边缘计算在推荐系统的应用

EdgeRec边缘计算在推荐系统的应用

2022-02-24

基于高阶和时序特征的图神经网络社会推荐研究

基于高阶和时序特征的图神经网络社会推荐研究

2023-04-02

Python思维导图.rar

python思维导图,助力学习python知识体系,包含基础知识、列表元组、面向对象模块、数据类型、文件对象、字符串、字典集合等等python知识思维导图

2020-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除