Baihai IDP-CSDN博客

原创 OCR 识别质量如何影响 RAG 系统的性能？有何解决办法？

"时，基于 OCR 识别出的错误表格结构数据的 RAG 系统可能曲解数据之间的关系，产生诸如"2025 年研发占比 49%，而 2024 年高达 8,675%"的荒谬回答。这样，它就能准确地做出反应：“您的权益类资产配置在过去的一年内从 45% 攀升至 58%，这是您的投资组合构成中最大的变化。"时，基于传统 OCR 输出的 RAG 系统只能提供有关投资组合组成部分的一般信息，完全无法解读图表中揭示的关键趋势 —— 例如权益类资产配置有 13 个百分点的增幅，而这正是评估投资风险的核心依据。

2025-06-11 10:34:28 549

原创 “一代更比一代强”：现代 RAG 架构的演进之路

文章首先剖析 Naive RAG 的基础架构及其核心挑战，继而深入探讨三大优化方向：查询动态优化（包括查询重写、查询扩展等策略）、语义理解增强（重点解析 Anthropic 提出的上下文检索方法）、计算效率革新（客观评价缓存增强生成（CAG）的技术边界）。），才能生成符合预期的输出，并防范越狱攻击。我们今天为大家带来的文章，作者的观点是：RAG 技术的演进是一个从简单到复杂、从 Naive 到 Agentic 的系统性优化过程，每一次优化都是在试图解决无数企业落地大语言模型应用时出现的痛点问题。

2025-06-06 10:09:23 1043

原创对 AI Agent 定义的一些探讨

更不必说前人早已提出过各种智能体定义，且存在专门研究多智能体系统的完整学术领域（我早期的重要研究成果之一，就发表在 2000 年在波士顿召开的第四届国际多智能体系统大会上，该会议后来与另两个会议合并成为延续至今的 AAMAS 会议[7]）。这些要素对某些类型的智能体确实有价值，但很难论证它们是智能体概念的核心。我们今天为大家带来的这篇文章，作者的观点是：当前流行的智能体定义要么过于复杂，要么严重偏离核心要义，真正的智能体应该被定义为“具备自主性和行为能力，能在所处环境中实现一个或多个目标的系统”。

2025-05-30 10:27:46 872

原创大语言模型推理优化技术综述（The Art of LLM Inference）

遗憾的是，第 3 层之后的模型层通常非常稀疏。这种方法能够大大减少所需的计算量 —— 即使 query 的符号（sign）变化，后续的乘积运算通常仍能得到最大值：当 query 符号为负时，乘以最小值必然得到最大输出值，反之亦然。在图中，2048 个词槽被一个包含 7 个单词的提示词（“four, score, and, seven, years, ago, our”）占用了，后续生成的 4 个单词（“fathers, brought, forth, ”）占用了第 8-11 个词槽。

2025-05-28 11:26:50 837

原创「DeepSeek 技术解析」：LLM 训练中的强化学习算法

为确保本文自成体系并阐明 GRPO 的理论基础，我们将首先介绍强化学习的基础概念，重点解析强化学习（RL）及基于人类反馈的强化学习（RLHF）在 LLM 训练中的核心作用。接着我们将探讨不同的强化学习范式，包括基于价值的强化学习、基于策略的强化学习和 Actor-Critic 强化学习，回顾经典算法如置信域策略优化（TRPO）和近端策略优化（PPO），最后解析 GRPO 带来的优化创新。在 GRPO 中，该指标是在每组之内计算的（每组可视为一个 query），因为划分的这些组本质上代表智能体所处的状态。

2025-05-27 10:51:55 913

原创模型蒸馏：“学神”老师教出“学霸”学生

在本文，我们探讨了模型蒸馏（Model Distillation）这一概念，这是一种让结构更简单、规模更小的学生模型复现或逼近结构更复杂的教师模型的性能的技术。我将使用 TensorFlow 和 MNIST 数据集训练教师模型，然后应用模型蒸馏技术训练一个较小的学生模型，使其在保持教师模型性能的同时降低资源需求。模型蒸馏通过让较小的、较简单的模型（学生模型）学习模仿较大的、较复杂的模型（教师模型）的软标签（而非原始标签），使学生模型能以更精简的架构继承教师模型的知识，用更少参数实现相近性能。

2025-05-21 08:39:18 516

原创写给开发者的“Vibe coding”提示词编写指南

同理，若赋予"安全专家"人设，其生成的代码会重点强化内容输入区的验证、规范认证流程，并预先规避潜在的漏洞风险。当前版本的时间复杂度为 O(n²)，无法满足数据集规模要求，请基于我们其他的数据处理函数使用的归并排序模式，重新生成 O(n log n) 时间复杂度的解决方案”在生成代码的过程中，提示词的设计是否精确，直接决定了模型输出的质量。本文深入探讨了提示词优化的 12 条策略，给出了清晰的操作指南和示范案例，读者可以了解到如何通过精准编写提示词引导模型生成性能优越、符合实际需求的代码。

2025-05-19 10:10:35 457

原创 MCP 协议为何不如你想象的安全？从技术专家视角解读

对我目前所使用的智能助手和拥有的数据而言，MCP 的核心价值在于：具备流畅的上下文供给能力（无需手动复制粘贴，可根据需求搜索并获取私有上下文）和智能体自主性（能够实现更多端到端的功能，不仅能撰写 LinkedIn 帖子，更能直接发布）。以及 LLM 本身的技术局限，导致在比较复杂的工具组合下性能可能下降而非提升。我认为，这些问题很多都可以通过巧妙的工具设计来解决（例如回传一个带验证功能的确认链接（必须通过用户主动点击才能完成验证的强交互机制）），而非修改 MCP 协议或 LLM 与工具的交互方式。

2025-05-14 10:28:41 1212

原创驳“RAG 已死”论：上下文窗口扩展≠RAG 终结

1）企业私有数据体量远超任何模型的上下文窗口容量；2）模型存在“lost in the middle”问题，难以有效处理长上下文中间部分的信息；3）长上下文处理带来的时间成本和费用开销非常大；4）RAG 架构提供的组件分离设计拥有更高的系统可维护性和问题可追溯性。

2025-05-12 10:19:08 937

原创 MCP 与 A2A 两个 AI Agent 协议的关系和区别是什么？

本文通过一个规划夏威夷旅行的生动案例，清晰拆解了这两大协议的本质区别：MCP 更像是为单个 AI Agent 赋能的“超能力工具箱”，而 A2A 则是构建了 AI Agent 专家团队间的“协作网络”。"工具"与"智能体"的界限其实很模糊。但问题在于：Claude 是根据过往的数据训练出来的，既不了解实时的天气状况，也无法预测下周的天气。通过统一标准实现"一次开发，通用适配"——任何新开发的工具或智能体都能无缝接入现有生态，不同组件之间就像标准化接口的乐高积木，无需针对特定组合重复开发对接程序。

2025-04-30 19:14:42 1472

原创 Google A2A 与 Anthropic MCP 该如何选择？

本文通过一个规划夏威夷旅行的生动案例，清晰拆解了这两大协议的本质区别：MCP 更像是为单个 AI Agent 赋能的“超能力工具箱”，而 A2A 则是构建了 AI Agent 专家团队间的“协作网络”。"工具"与"智能体"的界限其实很模糊。但问题在于：Claude 是根据过往的数据训练出来的，既不了解实时的天气状况，也无法预测下周的天气。通过统一标准实现"一次开发，通用适配"——任何新开发的工具或智能体都能无缝接入现有生态，不同组件之间就像标准化接口的乐高积木，无需针对特定组合重复开发对接程序。

2025-04-30 09:51:18 380

原创面对开源大模型浪潮，基础模型公司如何持续盈利？

依我看 —— 观点 1（译者注：标准化产品（如 ChatGPT 的聊天框）已能满足多数用户需求）有一定道理，观点 2（译者注：LLM 推理成本的长期下降趋势是真实的）纯属扯淡，观点 3（译者注：若推理成本真能持续下降，订阅模式利润将显著提升）虽有可能但面临重大技术障碍与组织惯性阻力。唯一的风险在于"旗舰模型"可能会因调用量不足而缺乏实战验证 —— 这个隐患可通过在订阅制的聊天界面给用户使用这些“旗舰模型”，但限制用户的模型可使用量来缓解：这样既能收集用户反馈，又能提升平台的活跃度，在产品之间产生协同效应。

2025-04-25 11:59:31 580

原创 GenAI 时代，数据唾手可得，但真正的挑战已经转变...

现在，你只需不到一美分的成本，就能获得高度个性化的、非常详细的答案，这在过去是根本无法实现的。简而言之，大语言模型（LLMs）推动了用户行为的变化（让用户更愿意提问或交互），这种高频使用生成了海量对话数据，而这些数据中天然包含了用户的真实需求和未被满足的痛点。我们分析了这些对话，以期发现文档中的问题和不足，识别产品缺陷，并收集客户在其他反馈渠道没有表达出来的功能需求。我们今天为大家带来的文章，作者的观点是：在生成式 AI 时代，数据从未失去其“黄金属性”，只是淘金（价值挖掘）的方式变了。

2025-04-23 12:09:38 698

原创「DeepSeek-V3 技术解析」：DeepSeek-V3-Base 预训练阶段解析

然而，由于余弦函数和正弦函数是周期性的，(pos_i, pos_j) 之间的内积可能看起来与 (pos_i, pos_k) 之间的内积相似，因此在固定 θ 的情况下，仅使用 1K tokens（即位置索引 1~1000）进行预训练的模型在测试时可能会混淆，因为测试时遇到的位置索引（如 5K 或 10K）可能远远超出了预训练时的上下文窗口。由于我们已在前文中讨论过相关内容，此处不再赘述。需特别说明，得益于本系列文章中介绍的各项创新技术，DeepSeek-V3 的优异性能是在极高的训练效率下实现的。

2025-04-21 11:22:48 672

原创能否将扩散模型思想应用于 LLMs 领域？大型语言扩散模型（LLDM）详解

这一步会产生部分被掩码的 token 序列。该序列被输入模型的核心组件 —— mask predictor（这是一个基于 Transformer 的模型），该模型通过计算掩码 token 上的交叉熵损失，训练其还原被掩码的 token。与预训练类似，我们随机掩码样本中的部分 token，但此次仅掩码响应部分的 token，保留提示词完整。更令人惊喜的是，LLaDA 在逆向推理任务中表现出色，有效解决了自回归模型在“逆向诅咒”上的局限性，甚至在诗歌逆向补全任务中超越了 GPT-4o 和 Qwen 2.5。

2025-04-17 11:14:03 669

原创 LLMs.txt：让大模型更懂你的 Web 文档

然而，它们在处理网站内容时往往受限于有限的上下文窗口，加上 HTML 页面中大量非核心内容的干扰，导致理解效率低下。随后，越来越多的由 Mintlify 托管的文档开始采用这一标准，为 LLMs.txt 的提议创造了一波知名度。与 /llms.txt 仅提供导航视图和文档结构不同，/llms-full.txt 包含了全部的文档内容，这些内容都是用 markdown 编写的。目前，LLMs.txt 提供了一个切实有效的解决方案，帮助 AI 系统更深入地理解和运用网络资源，特别是在技术文档和 API 领域。

2025-04-11 09:20:44 933

原创「DeepSeek-V3 技术解析」：多词元预测技术（Multi-Token Prediction, MTP）

此外，该技术可与推测解码（speculative decoding）结合，在推理时，MTP module 并行生成草稿词元，main model 通过单次前向传播验证并修正，凭借 85%-90% 的高接受率实现 1.8 倍的推理加速。在文献 [2] 中，作者尝试通过 MTP 技术预测未来的 2 个词元（token），并将其与推测解码相结合，结果发现第二个词元预测的接受率约为 85%~90%，这表明其 MTP 策略的生成质量稳定可靠。在本实验中，MTP module 在推理时被完全丢弃，因此推理时间无差异。

2025-04-10 10:14:14 1252

原创基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战

部分输出示例：https://www.oxen.ai/ox/Rust/file/GRPO_82_2025-03-02_22-49-17_Qwen2.5-Coder-1.5B-Instruct/outputs/GRPO_82_2025-03-02_22-49-17_Qwen2.5-Coder-1.5B-Instruct/cargo_test_rewards.jsonl?需要观察模型在每个奖励维度（如代码编译通过率等）上的改进情况，定期抽查模型接收的提示词（输入）及其生成的代码（输出）。

2025-04-07 10:52:41 1226

原创「DeepSeek-V3 技术解析」：无辅助损失函数的负载均衡

在混合专家模型（MoE）的实践中，负载不均衡俨然已成为制约模型性能提升的关键瓶颈之一。传统的均衡策略往往需要引入复杂的辅助损失函数，不仅增加了训练的复杂度，还可能干扰模型的核心学习目标。工程师们在提升模型效率的道路上，一直苦苦追寻着一个优雅而高效的平衡解决方案。DeepSeek 团队的这项研究，为这一长期困扰业界的技术难题提供了令人耳目一新的解决思路：通过在门控分数中直接添加专家层面的偏置项，在绝大部分不引入额外损失函数的情况下，实现了模型训练过程中的自适应负载均衡。

2025-04-02 10:42:03 1505

原创为什么大模型在 OCR 任务上表现不佳？

更令人震惊的是，我们在最新的 SOTA 模型（OpenAI 的 o1、Anthropic 的新版本 3.5 Sonnet 和 Google 的Gemini 2.0 flash）上运行相同测试时，所有模型都会犯完全相同的错误。这些见解来自 Pulse 项目团队的一线实战经验，他们在为大型企业构建数据提取解决方案的过程中，积累了宝贵的第一手资料。当时我们还未曾意识到，在实现这一目标的过程中，会遇到一个障碍，而这个障碍彻底改变了我们对 Pulse 的开发思路。以一个包含“1,234.56”的简单表格单元格为例。

2025-03-28 10:51:43 1244

原创图解「模型上下文协议（MCP）」：从与传统 API 的比较入手

文章详细介绍了 MCP 的核心架构，包括 Host（提供 AI 交互环境的应用程序）、Client（实现与 MCP Servers 通信）和 Server（提供特定能力和数据访问）三大组件。我们今天带来的这篇文章，作者的核心观点是：MCP 通过标准化通信协议，让 AI 应用与外部工具、数据的交互如同 USB-C 接口一般高效且灵活，彻底改变传统 API 架构的僵化限制。MCP 的核心遵循客户端-服务器（client-server）架构，Host 应用程序可以连接到多个 Server。

2025-03-26 10:00:11 3526

原创「DeepSeek-V3 技术解析」：DeepSeekMoE

应用更细粒度的专家分割（fine-grained expert segmentation）后，每种菜系所需的技能被拆分给多个专家掌握，于是我们得到一组专精中餐的厨师和另一组专精意大利菜的厨师，每位厨师只需掌握该菜系的特定技能。图3 © 也展示了该策略的实现方式：选定一个专家作为共享专家（绿色高亮标记），所有输入 token 均不经路由层（Router）直接激活该专家，同时将激活的专项专家数量从 4 个减至 3 个，使总激活专家数量与图 3 (b) 保持相同。换言之，路由专家具有更高专业性且冗余度更低。

2025-03-21 10:05:36 1126

原创「DeepSeek-V3 技术解析」：多头潜在注意力机制（MLA）

在每个解码步骤中，仅计算新的查询向量 Q（Query），而缓存中存储的 K（Keys）和 V（Values）会被复用，注意力机制将通过新计算的 Q 与复用的 K、V 进行运算。为了更清晰地理解这一点，来看看使用公式 (7) 计算注意力时的情形：当我们对 q 进行转置并与 k 相乘时，矩阵 W^Q 和 W^{UK} 会出现在中间环节，它们的组合等效于从将 d_c（输入向量的维度）映射到目标维度 d。具体而言，RoPE 会对每个词元（token）的查询向量和键向量应用一个与位置相关的旋转矩阵。

2025-03-19 09:52:58 929

原创如何高效地为「推理模型」编写最佳提示词？万字长文介绍

作者 | Agustinmantaras编译 | 岳扬OpenAI 的 O1 和 O3-mini 是两款先进的推理模型，与基础版 GPT-4（通常称为 GPT-4o）在提示词处理和答案生成方式上存在明显差异。这些模型通过模拟人类的分析方法，在处理复杂问题时会投入更多时间进行“深度思考”。禁止尝试提取模型的内部推理过程，此类行为违反使用准则。本文将探讨 O1 与 O3-mini 在输入处理、推理能力和响应行为等方面与 GPT-4o 的区别，并阐述优化推理模型性能的提示词工程最佳实践。最后，我们将这些方法论应用

2025-03-14 10:03:09 726

原创为什么说 JSON 不一定是 LLM 结构化输出的最佳选择？

如前文所述，CSV 格式的挑战在于逗号在数据中较为常见，这可能会导致两种情况：要么是需要更多的 tokens 来处理这些逗号，要么是 LLM 在处理时未能正确进行转义，从而产生错误的数据。因此，如果你的数据可能包含逗号，最好避免使用 CSV，或者设计一个详尽的提示词，并实施有效的评估流程，以便准确衡量其可靠性。我们今天为大家带来的文章中，作者通过实际测试给出建议：在某些场景下，相比广泛使用的 JSON 格式，不妨考虑一下其他数据格式，做一些测试，挑选出既能控制成本又能保证稳定性和速度的最佳选项。

2025-03-12 10:29:27 711

原创 7B 开源模型性能超越 LLaVA，DeepSeek Janus Pro 论文详解

提到 DeepSeek，大家可能更熟悉 R1 模型 —— 这款以低成本、高性能和开源特性颠覆行业的语言模型，而今天这篇文章介绍的 DeepSeek Janus Pro，通过创新的架构设计，在性能上超越了同领域的众多顶尖专用模型（Janus-Pro 7B 在图像理解和图像生成两方面都超越了 LLaVA、Dalle 3 和 SD XL 这样的主流选手）。对于图像生成任务，则在 LLM 上添加一个图像解码头，由其处理最终的隐藏状态（Hidden State，包含输入序列的语义信息）生成图像。

2025-03-10 09:48:05 1230

原创后 DeepSeek R1 时代：从资本壁垒到技术普惠

相比两年前，当今开发者的模型推理成本已下降 100-200 倍，这种成本曲线陡降速度在云计算 15 年的发展史上都前所未见。但还有一种理论认为：任何优势都可能被竞争淘汰，真正重要的是行业能获得多少关注度 —— 如果你能每天登上所有新闻媒体的头条，当加入并从中分一杯羹的进入门槛足够低时，供应链中任何明显的利润空间都会被彻底榨干。我们今天为大家带来的文章，作者的核心观点是：以深度求索（DeepSeek）R1 模型为代表的高效推理技术，正在颠覆 AI 经济的底层规则，推动行业进入“轻量化革命”时代。

2025-03-05 10:14:04 1160

原创绕过 RAG 实时检索瓶颈，缓存增强生成（CAG）如何助力性能突破？

这篇论文提出了一种高效的方法，可以在有限的内存和计算资源约束下，将基于 Transformer 的大语言模型（LLMs）扩展到处理无限长的输入。通过将海量外部知识嵌入模型的上下文窗口，CAG 能够生成信息丰富且上下文相关的回答，避免了传统检索增强生成（RAG）系统的检索延迟。这些策略为扩展测试时计算（test-time computation）提供了额外的灵活性（例如，通过增加检索的文档数量或生成步骤），从而增强 LLMs 获取和利用上下文信息的能力。这种方法消除了检索延迟，将检索错误的风险降至最低。

2025-02-28 10:42:43 1070

原创从PPO到GRPO：算力减半的大模型推理能力训练革命

在训练过程中，强化表现好的输出（提高其概率），抑制表现差的输出（降低其概率），从而引导模型优化方向。在 PPO 算法中，传统价值模型的核心任务是评估生成内容的质量，或者说预测这些内容获得高奖励值（high reward）的可能性。由于我们现在训练的是语言模型，只需调整 temperature 参数即可生成多个候选回答，所有生成回答的平均奖励值即可作为衡量当前模型表现的良好信号，以及决定是否需要强化该行为。在这篇文章中，我们将深入探讨 GRPO 的细节，助您掌握这项推动大模型推理能力突破的关键技术。

2025-02-27 10:40:54 704

原创 LLM Agent 协作评估难？这 3 款评估监控工具来帮忙

在评估过程中，我通常觉得评估对话记录部分更有帮助，它能告诉我们各个 Agents 的具体行为，从而我们可以据此调整相应的提示词，并且还能帮助决定对话的轮数。简而言之，这就像将不同的任务分配给不同的人，并指导他们通过团队讨论来共同打造出一个完善的解决方案，类似于我们在头脑风暴会议中的做法。采用 Agentic 方法，基于上述情况，我们可以创建三个 Agent：一个是负责检索任务的检索器 Agent，一个是负责生成答案的答案生成器 Agent，以及一个负责对答案进行反馈的答案验证 Agent。

2025-02-21 16:18:38 1343

原创如何正确看待 AI 的推理能力？走出人类中心主义

请记住，我们衡量认知能力的标准，与蒙骗那些被诱导相信自己在“与拥有灵魂的实体互动”的轻信者毫无关系 —— 这让人想起前谷歌工程师布莱克·勒莫因（Blake Lemoine）那听起来很玄但其实不对的观点，他曾以道德理由拒绝关闭一个“有意识”的 AI chatbot。”我猜各位读者能找出这句话的关键词，就是“真正的”。另外，还有人提出，“真正的推理”应该是在所谓的“思维链”（Chain of Thought，CoT）中进行的“多步骤思考（think in several steps）”。

2025-02-21 16:17:22 576

原创深度体验｜我用 Devin 写了一个月代码，真实体验令人意外

你可以实时在 web app 中观察它审查文件的过程和所做的代码修改（这一功能相当酷炫），一旦完成，它就会运行代码检查和代码测试（如果有的话），解决遇到的问题，并创建一个 PR（pull request）。尽管它有时会在通用最佳实践与特定代码库的特定规则之间犹豫，但它很快就能根据你的指导做出反应 —— 随着时间的推移，它会建立一个针对特定代码库的知识库，我们可以对其进行检查和编辑修改。在我们详细介绍对该产品的使用体验之前，我们想先声明，本文的任何负面观点，都不是为了贬低 Devin（或任何其他产品）。

2025-02-14 10:23:29 1087

原创图文详解：带你读懂 DeepSeek-R1 的核心原理

它之所以意义重大，并不是因为它是一个非常好用的 LLM，而在于在它的创建过程中，几乎无需依赖标注数据，仅通过大规模的强化学习，就能培育出一个擅长处理推理问题的模型。R1 使用的是该论文中的基础模型（并非最终的 DeepSeek-V3 模型），并且同样经历了 SFT（监督式微调）和偏好调优阶段，但它的独特之处在于这些阶段的具体操作方法。接着，这个未命名的推理专家模型的输出结果，可以用来训练一个更为多能的模型，它不仅能够处理推理任务，还能应对其他类型的任务，满足用户对大语言模型（LLM）的普遍期待。

2025-02-10 10:20:59 2244

原创为什么大语言模型难以处理长上下文？从 Transformer 到 Mamba

作者 | Timothy B. Lee编译 | 岳扬OpenAI 在两年前推出 ChatGPT 时，其能够处理的上下文信息仅有 8,192 个 tokens1。换言之，如果输入的文本超过大约 15 页，它就会“遗忘”最初的上下文内容。这一限制使得 ChatGPT 在处理任务时的规模和复杂度都受到了影响。而现今的 LLMs 能力有了显著提升：尽管如此，要想让 AI 系统达到人类水平的认知能力，我们还需要取得更多的进步。许多人展望未来，认为 AI 将能够承担大部分甚至全部的人类工作。然而，人类在工作生涯会阅读和

2025-02-08 10:41:56 826

原创 AI 发展是否正在放缓？AI 发展将驶向何方？

在 2024 年的 NeurIPS 会议上，Ilya 提到了合成数据的使用是未来的发展方向之一，这当然也是经常被视为持续扩展模型规模的一条路径。面对这些挑战，作者提出了几个潜在的突破方向：探索合成数据的应用、发展推理层面的扩展能力，以及构建更智能的 Agent 系统。在编程和数学领域，我们可以生成大量示例，并迅速验证哪些是正确的，从而创建一个较小的、更精细且高质量的数据集。我们今天为大家带来的这篇文章，作者的核心观点是：虽然传统的模型规模扩展策略正在遭遇瓶颈，但这可能正是 AI 发展模式转型的重要契机。

2025-01-26 10:15:37 720

原创你的LLM评估方法过时了吗？这三个范式转变不容错过

在二元分类任务中，精确率和召回率是对结果的无损度量（直接测量你所观察到的结果），而我提到的 LLM 任务的评估指标则是对输出文本的损失性度量（测量的是你所观察结果的简化版）。文章从作者在 Quora、Waymo 等公司的一线实践经验出发，提出了三个关键的评估范式转变：首先，评估工作应当从开发流程的配角转变为主角，因为 LLM 应用开发中可调整的参数相对有限，而输出的多样性却大大增加；基本的界面可能如下所示：结合之前提到的比较差异的基准测试，它提供了一个并排比较的面板，用户可以轻松浏览结果。

2025-01-26 10:06:35 922

原创文档解析技术指南：从传统Pipeline到端到端大模型

UB-PMC 包含真实的科学图表，而 Synth 则是生成的模拟图表。ChartDETR 等先进方法结合了 CNN 和 Transformer，实现了端到端的数据提取，而 FR-DETR 等模型则优化了流程图和树状图的结构提取，但处理复杂连接线的挑战依然存在。最初，这一领域依赖于基于规则的方法，但现在，深度学习技术的应用，如使用边界框和图像分割，极大地提升了检测的精确度和速度。但当遇到科学和专利文档时，基于学习的方法，如 Nougat 和 TATR，由于能够更好地处理复杂的布局和结构，因此表现更为出色。

2025-01-17 10:35:55 1548

原创向量数据库真的能满足所有 AI Agent 的记忆需求吗？

与此同时，它还在收集其他相关属性（例如，token 数量、产生模型响应的成本、系统状态、执行的任务/生成的响应），并创建一个 episode，然后将其存储在知识图谱中，其中底层过程存储在有限状态机（FSM）中。这些编码后的数据存储在向量数据库中，在推理阶段，可以基于向量相似度，使用相同的编码器模型来检索这些数据。在向量数据库领域，集合（collection）相当于 SQL 数据库中的表（table），每个集合项通常包含：唯一标识符（ID）、向量（实际数据，以浮点数数组形式存储）和元数据（例如，时间戳）。

2025-01-17 09:57:27 899

原创 RAG的技术困境：为何单纯依赖向量嵌入不可靠？

尽管 Nvidia 拥有丰富的资源，数据集的大小适中，答案也相对简短，但研究者们还是通过一种新的 RAG 方法，发送 48K 的文本片段并连同用户查询一起，打破了之前的最先进水平，实现了 47.25 的 F1 score（如果发送的内容更少，F1 score 会更低）基于同义词的搜索确实能够找到关键字搜索遗漏的产品，但这是有代价的。这意味着，当搜索关于“国王”的信息时，系统会优先展示关于“王后”的文本片段，而不是关于“统治者”的，尽管后者在内容上可能更为相关，而关于“王后”的信息则完全不相关。

2025-01-10 14:15:39 892

原创 2025 年 AI 与数据工程领域十大趋势前瞻

现实情况是，即使你拥有市场上最尖端的数据质量平台——最先进的 automations 技术，最优秀的 copilots 系统，最完美的集成（integrations），但如果不能迅速让企业运转起来，那么你所拥有的不过是预算表上的一个细列项目，以及桌面上一个新增的标签页而已。但小模型的优势不仅仅在于成本，它们也能提升性能。识别企业中存在的非结构化第一方数据，以及如何为利益相关者激活这些数据 —— 对于寻求展示数据平台商业价值的数据领导者来说，是一个全新的机遇（并希望在此过程中为优先计划争取到一些额外的预算）

2025-01-10 11:21:46 1006

空空如也

空空如也