- 博客(199)
- 收藏
- 关注
原创 【论文阅读】VTP:Towards Scalable Pre-training of Visual Tokenizers for Generation
图像生成模型,包括两部分,先通过VAE,将原始图像变换到隐空间,然后在隐空间进行图像的生成,最后再通过VAE的解码变换到图像域。但是传统的方式,对于VAE部分,也就是论文说的Pre-training of Visual Tokenizers部分,无法scaling——而且,token部分的scaling还与下游的模型生成出现相反的效果。论文分析,这里的原因,在于,传统的的token部分,主要是进行像素级重建,没有进行高级语义的理解和构建,导致过分拟合于细节,反而影响了下游的图像生成。解决方法,就是在toke
2025-12-22 22:22:17
760
原创 【AI学习】Google 最新的白皮书,《Introduction to Agents》
这里是@黄建同学在微博发的文章,摘录转载一下,做个记录
2025-11-18 15:00:15
1456
原创 【AI学习】关于大模型发展的一些话语
信息论角度探讨语言模型的本质,指出预测next token的过程实际是对语言信息的高效压缩。压缩程度反映预测准确性,条件概率越精准,信息压缩越接近极限。因此,语言模型通过预测token实现了对语义空间的建模,其预测能力与信息压缩效率直接相关。
2025-11-12 21:24:43
613
原创 【AI工具】dify智能体-Kimi-K2+Mermaid ,一键生成系统架构图
在现代软件工程的复杂环境中,清晰、准确的系统架构图是沟通、设计和维护的基石。然而,对于许多架构设计人员和开发者而言,手动绘制和维护这些图表是一项耗时且容易出错的任务。为了解决这一痛点,一种结合了先进AI模型、低代码平台和文本化图表工具的全新解决方案应运而生。本报告将深入探讨如何利用Dify智能体平台,集成强大的Kimi-K2-Instruct大语言模型和灵活的Mermaid图表生成器,构建一个能够“一键生成”系统架构图的自动化工作流。此方案旨在为架构设计人员提供一种高效、智能且可复用的工具,将繁琐的绘图工作
2025-10-28 13:27:15
1117
原创 【论文速读】《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》
这篇论文的标题为《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》,由Google DeepMind等机构的研究人员撰写,主要探讨如何通过优化**测试时计算(test-time compute)来提升大语言模型(LLM)在推理任务中的表现,并比较其与预训练计算(pretraining compute)**之间的权衡。
2025-10-25 22:35:12
878
原创 【论文学习】Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning
随着大语言模型(LLMs)的快速发展,出现了多种架构和微调变体。为了充分利用这些模型的互补优势,LLM路由器应运而生,用于动态调度用户查询到最适合的模型以提高回答质量和效率。然而,现有的LLM路由器通常只进行单轮的一对一映射,即将每个查询分配给单个模型,这限制了它们处理复杂任务的能力,因为复杂任务往往需要多个模型的协同交互来发挥它们的互补优势。因此,如何协调多个LLM在多轮路由和聚合过程中共同解决复杂任务成为了一个关键挑战,这也是本论文的研究动机。
2025-10-16 22:35:22
905
原创 【论文阅读】Visual Planning: Let’s Think Only with Images
当前多模态大模型(MLLMs)虽能处理图像输入,但其推理过程仍完全依赖文本模态,导致在空间、几何、物理动态等视觉主导任务中表现不佳。论文质疑:“是否必须将视觉信息转换为文本才能推理?” 并提出——能否让模型像人类一样“用图像思考”?
2025-10-08 21:54:06
1047
原创 【论文阅读】REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
ReAct 通过交错推理与行动,首次在统一框架中实现了 LLM 的“边想边做”,在知识推理与交互决策任务中均取得显著性能与可解释性提升,为构建更智能、可控、可扩展的语言智能体开辟了新路径。
2025-10-08 21:26:10
2710
原创 【论文阅读】《Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models》
推理是智能的核心,塑造了决策、得出结论和跨领域泛化的能力。在人工智能中,随着系统越来越多地运行在开放、不确定和多模态的环境中,推理对于实现鲁棒和适应性行为变得至关重要。大型多模态推理模型(LM-RMs)已成为一种有前景的范式,通过整合文本、图像、音频和视频等模态来支持复杂的推理能力。它旨在实现全面的感知、精确的理解和深入的推理。随着研究的进展,多模态推理已迅速从模块化、感知驱动的管道发展到统一、以语言为中心的框架,提供了更连贯的跨模态理解。虽然指令微调和强化学习提高了模型的推理能力,但在全模态泛化、推理深度
2025-10-06 22:43:17
1267
原创 【论文阅读】通义实验室,VACE: All-in-One Video Creation and Editing
VACE 是视频生成领域的一项里程碑式工作,首次实现了多任务统一的视频创作与编辑框架。通过 VCU 输入范式、Concept Decoupling 与 Context Adapter 等创新设计,VACE 打破了“单任务单模型”的局限,为视频 AIGC 提供了更高效、更灵活的解决方案。
2025-10-06 21:38:23
1374
原创 【论文阅读】A Survey of Reinforcement Learning for Large Reasoning Models
在本文中,我们综述了利用强化学习赋能大型语言模型进行推理的近期进展。强化学习在推动 LLM 能力前沿方面取得了卓越的成功,尤其是在解决数学和编程等复杂的逻辑任务上。因此,强化学习已成为将 LLM 转变为语言推理模型 (LRM) 的一种基础性方法。随着该领域的飞速发展,将强化学习进一步扩展应用于 LRM 不仅在计算资源方面,也在算法设计、训练数据和基础设施方面面临着基础性挑战。为此,我们有必要及时回顾该领域的发展历程,重新评估其发展轨迹,并探索各种策略来增强强化学习的可扩展性,以期最终迈向超级人工智能 (AS
2025-09-24 22:33:59
2474
原创 【AI学习】以存强算推理加速解决方案
摘要:大模型在企业应用中面临长序列处理挑战,包括行业知识整合、复杂推理和个性化记忆需求带来的算力压力。长序列导致显存不足,如单个token会放大3.5万倍KV缓存。华为提出解决方案:1)预存专业知识库的KV Cache实现快速查询;2)采用稀疏注意力优化。这与Deepseek、英伟达的外置存储方案形成技术对比,共同应对长序列场景(如总结、问答)的算力瓶颈。
2025-09-24 17:30:17
379
原创 【论文阅读】WebSailor: Navigating Super-human Reasoning for Web Agent
当人类面对浩如烟海的互联网信息时,我们总会被有限的记忆、短暂的注意力和串行搜索路径所束缚。OpenAI 的 DeepResearch 之所以被称为"超人",正因为它突破了这些生理天花板,在 BrowseComp 等极限基准上取得碾压式领先。问题是:开源社区能否复制这种"超级推理"?阿里巴巴通义实验室的最新力作 WebSailor 给出了响亮回答
2025-09-21 22:54:52
2798
原创 【论文阅读】One-Minute Video Generation with Test-Time Training
本文介绍了一种名为“Test-Time Training(TTT)”的方法,用于生成一分钟长的视频。尽管当前的Transformer架构在视觉和物理逼真度方面取得了显著进展,但它们仍然只能生成较短的单场景视频片段,仍然很难制作一分钟的视频,难以生成复杂故事。这是因为Transformer的自注意力层在处理长上下文时效率低下,其计算成本随着上下文长度呈二次方增长。为了解决这一挑战,作者提出了一种新的TTT层,其隐藏状态本身可以是一个神经网络,从而更具表现力。
2025-09-21 22:53:14
936
原创 【论文阅读】 WebDancer: Towards Autonomous Information Seeking Agency
当大模型只会“被动答题”已不够,阿里通义实验室最新论文《WebDancer》给出一条“从数据到算法”的端到端配方,让开源模型也能像OpenAI Deep Research一样,自主规划、翻网页、多跳推理,完成复杂信息检索任务。
2025-09-19 21:46:39
1582
原创 【论文阅读】WebWalker: Benchmarking LLMs in Web Traversal
【导读】传统搜索只能“扫射”网页表层,而复杂答案往往藏在多级按钮之后。阿里通义实验室最新论文提出WebWalkerQA,用680个双语问答,首次系统评测大模型“翻网页找答案”的能力。作者还设计多智能体框架WebWalker,让探索者负责逐层点击,评论者实时记忆与判断,像人类一样深度遍历。实验显示,即使GPT-4o,准确率也不到40%,证明深度信息仍是RAG盲区。把WebWalker插入传统RAG后,性能立涨,尤其擅长多源问答。想让你的AI不止会搜,还会点?这篇干货值得细读。
2025-09-19 21:32:50
1486
原创 【论文阅读】谷歌:生成式数据优化,只需请求更好的数据
本文提出了一种创新性的生成式数据优化(GDR)框架,通过预训练大模型对原始数据进行语义保留式的净化处理,解决了训练数据中隐私泄露和有毒内容的问题。实验表明,GDR在匿名化处理方面优于行业标准工具,能有效降低数据毒性同时保持语义多样性。该方法为拓展模型训练数据来源提供了安全可行的技术路径,有望缓解未来可能面临的数据枯竭危机。
2025-09-17 21:24:54
1379
原创 【论文阅读】MIDAS: 多模态交互式数字人合成,通过实时自回归视频生成
这份报告介绍了一个叫MIDAS的AI新技术,能让虚拟人像真人一样说话、表情自然,还能实时互动。它像“说话娃娃”升级版:你给一段语音或文字,它就能生成对口型、有表情的动态人像视频,支持多语言、多人对话。核心技术是把视频压缩成“小积木”,让AI一块块预测下一步,再还原成高清画面。团队还建了2万小时的数据库训练它,让虚拟人更逼真、互动更流畅。未来或用于网课、直播、客服等。
2025-09-17 21:09:51
1492
原创 我的创作纪念日
2024 年 04 月 16 日,我撰写了第 1 篇技术博客:《【论文阅读】谷歌Infini-Transformer,一种长上下文的注意力机制》
2025-09-12 22:54:21
743
原创 【AI非常道】高级RAG技术中的文档切块/切分(Chunking)技术
Chunking 是 RAG 系统的关键环节,不存在“一招鲜”的万能方案。固定大小切分适合快速原型,递归和文档结构切分更具结构化优势,语义和 LLM 辅助切分则在高精度场景中发挥作用。未来,随着长上下文模型的发展,「延迟切分」等新方法可能成为主流,使文档处理更接近人类理解方式。实际应用中,最优解往往是结合文档特性与系统需求,选择或混合多种切分策略。
2025-09-08 08:30:00
730
原创 【论文阅读】MedResearcher-R1: 基于知识引导轨迹合成框架的专家级医学深度研究员
当通用大模型还在“背题库”时,蚂蚁集团联合哈工大推出的 MedResearcher-R1 已把“临床查房”搬进训练场!这篇 2025 年 9 月发布的论文,首次让开源 32B 模型在医学深度研究基准 MedBrowseComp 上拿下 27.5/50 的新 SOTA,反超 o3-deep-research、Gemini-2.5-Pro 等旗舰商用系统。
2025-09-08 08:30:00
1867
原创 【论文阅读】自我进化的AI智能体综述
大型语言模型(LLM)的最新进展引发了人们对能够解决复杂现实世界任务的AI智能体的兴趣。然而,大多数现有的智能体系统依赖于部署后保持静态的手工配置,限制了它们适应动态和演变环境的能力。为了解决这一局限性,最近的研究探索了智能体进化技术,旨在根据交互数据和环境影响自动增强智能体系统。这一新兴方向为自我进化的AI智能体奠定了基础,它们连接了基础模型的静态能力与终身智能体系统所需的持续适应性。在本调查中,全面回顾了自我进化智能体系统的现有技术。具体来说,文章首先介绍了一个统一的框架,该框架抽象了自我进化智能体
2025-09-07 17:41:54
2335
原创 【论文阅读】解耦大脑与计算机视觉模型趋同的因素
Meta AI的最新研究揭示了AI视觉模型与人脑表征之间的趋同规律。研究发现:(1)模型规模、训练时长及人类中心数据的增加会显著提升模型与大脑表征的相似度;(2)模型的学习轨迹与人类视觉发展高度一致,早期层先对齐感觉皮层,后期层逐步匹配前额叶表征;(3)这种趋同现象源于相似环境下的自然收敛,而非刻意模仿。研究通过系统训练不同规模的DINOv3模型,结合7T fMRI和MEG脑成像数据,量化分析了空间组织、时间动态等三方面相似性指标,为理解AI与生物智能的共性机制提供了新框架。
2025-09-07 17:20:48
808
原创 【论文阅读】Jet-Nemotron: 高效语言模型与后神经网络架构搜索
Jet- Nemotron- 2B模型在一系列基准测试中实现了与Qwen3、Qwen2.5、Gemma3和Llama3.2相当或更高的准确度,同时提供了高达 53.6× 生成吞吐量加速和 6.1× 预填充加速
2025-09-02 17:25:12
1203
原创 【论文学习】UoMo: 一个用于无线网络优化的移动流量预测通用模型
基于 UoMo 预测的移动网络流量,文章测试了三类典型的应用场景(基站选址规划、无线资源分配、基站休眠控制),验证移动流量预测能力以及对网规网优的能力支撑。
2025-08-18 17:42:05
658
原创 【AI绘画】免费自动批量的生成图片
本文介绍了通过API自动化批量生成图片的方法。作者结合书生大模型(免费API)生成提示词,再调用ModelScope平台的文生图API,实现了批量自动生成图片的流程。文章展示了基于"近当代小说经典场景"生成的木刻版画风格图片示例,并提供了完整Python代码,包括提示词规范、API调用和图片保存等关键步骤。虽然批量生成的图片质量不如单张精细调整,但为自动化创作提供了可行方案。
2025-07-23 21:48:29
997
原创 【AI学习】大模型微调实践
参与了书生・浦语(InternLM)端侧小模型论文分类微调练习打榜赛,经过十多天的反复尝试和优化,最终在AB榜单中跻身前十。
2025-07-11 21:47:24
347
原创 【论文阅读】A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models
论文的核心研究动机源于当前人工智能领域,尤其是大型语言模型(LLMs)在取得显著进展的同时,其内部机制的不可解释性带来的严峻挑战。近年来,以GPT-4、Claude-3.5等为代表的LLMs在文本生成、问答系统、逻辑推理、代码编写等任务中展现出接近甚至超越人类的能力。然而,这种强大性能的背后是极为复杂的神经网络架构(如Transformer)和海量的参数量(通常超过千亿级别),导致模型决策过程高度不透明,形成了所谓的“黑箱”问题。
2025-06-22 22:02:55
1325
1
原创 【AI学习】李广密与阶跃星辰首席科学家张祥雨对谈:多模态发展的历史和未来
非常赞叹的一篇文章,说清楚了NLP、CV发展中的许多重大问题,读来醍醐灌顶!这样的文章,至少需要读三遍!
2025-06-09 15:37:44
773
1
原创 【AI学习】wirelessGPT多任务无线基础模型摘要
收看了关于WirelessGPT多任务无线基础模型的演讲视频,应该说,在无线通信大模型的探索方面,有一个非常有益的尝试。
2025-06-07 15:55:06
709
原创 【论文学习】Model Context Protocol (MCP): Landscape, Security Threats, and Future Research Directions
来自华中科技大学的研究者发了一篇MCP的综述论文。这篇文章,可以作为学习MCP的学习资料,论文全面分析了模型上下文协议(Model Context Protocol, MCP)的生态系统,探讨了其架构、核心组件、工作流程、服务器生命周期,以及在创建、运行和更新阶段的安全风险,并提出了未来研究方向和建议。
2025-06-07 15:47:49
1152
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅