Baihai IDP-CSDN博客

原创汽车长翅膀：GPU 是如何加速深度学习模型的训练和推理过程的？

鉴于 CUDA kernels 的工作空间为 device 的内存（device memory），故需向 kernel 提供 device 指针（device pointers）（d_A、d_B 和 d_C），以确保其能在 device 的内存上运行。对于深度学习模型而言，其实质就是一系列涉及矩阵（matrix）与张量（tensor）的运算操作，包括但不限于求和（sum）、乘法（multiplication）、卷积（convolution）以及归一化（normalization ）等。

2024-07-24 10:07:30 966

原创哪些基于 LLMs 的产品值得开发？从用户体验和市场接受度的角度探讨

以个人知识管理（PKM）工具为例，如 Obsidian，这些往往都是专为“老鸟”设计的 “core products” （译者注：如前文所述，仅仅提供核心功能的产品，亦即所谓的“通用产品（generic products）”），这类产品用户热衷于自己动手，通过各种插件（plugins）和集成其他组件、系统（integrations）来个性化满足自己的使用需求。在我看来，最成功的“smart” AI 解决方案，都是那些能够完美融入现有工作流的方案，终端用户无需任何多余操作就能享受 AI 带来的便利。

2024-07-17 10:41:14 700

原创给｢大模型初学者｣的 LLaMA 3 核心技术剖析

”这样的问题时，期望的回答自然是“白色（white）”。仅需具备一定的 Python 编程基础，并对神经网络和 Transformer 架构有基本的认识，便能跟随本文的指引，观察 LLaMA 3 如何根据输入生成输出，见证它如何基于输入生成连贯且有意义的文本。—— 如前文所述，LLaMA-3 采用的是 tiktoken 库中的字节对编码（BPE）分词技术，这项技术是在一个包含了 15 万亿个 tokens 的超大数据集上训练得来的，比 LLaMA-2 使用的数据集足足大了7倍之多。

2024-07-13 10:45:18 936

原创 Advanced RAG 10：引入检索评估、知识精练的 CRAG 技术详解

图 1：这些例子表明，低效的检索器（retriever）容易引入大量无关的信息，会阻碍生成器（generators）获取准确的知识，甚至可能将其引入歧途。：本文介绍的 CRAG 技术通过引入轻量级检索评估机制和知识精炼算法，试图解决传统检索增强生成（RAG）方法在处理复杂查询语句时存在的问题（包括检索结果不够精确、引入无关信息等），这些问题会影响模型回答的质量。而对于篇幅较长的文档，则依据其总长度，灵活切分为由数个句子组成的多个更小单元，确保每个小单元都封装一条独立完整的信息。

2024-07-10 10:10:59 651

原创「多模态大模型」解读 | 突破单一文本模态局限

换言之，模型在训练阶段会学习如何将输入的词（或tokems）转换为向量表征（即嵌入），这一过程是通过优化模型参数完成的，在推理阶段，当新的输入序列传入模型时，模型会直接使用已学习到的参数来产生相应的嵌入向量，而不需要再经历一个单独的、显式的编码步骤。在这种情况下，模型接收到的是一幅部分信息被掩盖的图像，模型需要重建完整图像。无论处理的是文本里的字词（words）或是图像中的像素点（pixels），对输入序列进行编码的核心思想是将其转化为一系列数字，即所谓的向量嵌入（vector embeddings）。

2024-07-05 10:09:30 917

原创 Llama-2 vs. Llama-3：利用微型基准测试（井字游戏）评估大模型

如何更好地评估和比较不同版本的大语言模型？传统的学术基准测试固然重要，但往往难以全面反映模型在实际应用场景中的表现。在此背景下，本文作者别出心裁，通过让 Llama-2 和 Llama-3 模型进行井字游戏对决，为我们提供了一个新颖而有趣的模型评估视角。此文不仅展示了一种创新的模型比较方法，更揭示了当前大语言模型在处理看似简单的空间逻辑任务时所面临的挑战。让我们得以一窥不同参数规模模型的表现差异，以及新一代模型相较前代的进步与不足。

2024-07-04 13:31:30 807

原创检索生成(RAG) vs 长文本大模型：实际应用中如何选择？

尽管 LLMs 在文本的处理和生成等方面表现出色，但它们却面临一个固有的挑战：难以捕捉信息背景全貌，尤其是在应对冗长对话或涉及多重细节的复杂任务时。当接收到一篇新论文，且其结构与以往处理过的论文类似时，模型便能直接调用缓存中的相关上下文，仅需集中精力分析创新部分的内容（如实验结果和结论）。RAG 系统的搭建与运维，需依托于一套复杂的检索机制，该机制依赖向量搜索（vector search）及嵌入（embeddings）技术，以确保 LLM 能够高效获取最为契合的信息资源。这两种技术各有何优势？

2024-07-03 10:30:35 774

原创 Advanced RAG 09：『提示词压缩』技术综述

文中全面介绍了多种提示词压缩算法的原理和实现细节，包括基于信息熵的Selective Context、基于软提示调优的AutoCompressor、引入数据蒸馏方法的LLMLingua-2、综合利用问题语义的LongLLMLingua等。作者还贴心地附上了代码示例，以便各位读者可以动手实践，加深对算法的理解。

2024-06-29 10:51:52 750

原创高质量数据不够用，合成数据是打开 AGI 大门的金钥匙吗？

在当前的边际效益（译者注：边际效益（Marginal Benefit）是一个经济学概念，指的是在增加一单位的某种投入（如生产中的劳动力、原材料或者服务中的员工时间）时，所获得的额外收益或价值的增加。比如，一份最新发表的论文[5]（2024年1月）指出，利用大语言模型改进抓取到的网络数据的表达方式，不仅能优化训练效果，还能提升训练效率。当我们弄清楚如何获取更高质量的多模态数据（包括视频、音频、图像及文本）的技巧，我们可能会惊喜地发现，大语言模型填补其世界观缺失部分所需的训练数据量，远比原先设想的要少得多。

2024-06-26 10:04:39 556

原创 Advanced RAG 08：使用 Self-RAG 打造高质量、可追溯的 RAG System

Self-RAG（右）的主要功能为检索（retrieve）、评判（critique）和生成（generate），使生成的文本内容不仅通顺流畅，而且与事实知识相符，并且可以追溯到原始知识源。不过，这种技术需要更复杂的训练流程，并且在内容生成阶段（generation phase）融入了一些特殊机制，不仅生成目标输出文本，还会生成多种类型的反馈标签，并在生成时根据这些标签执行多个判断操作，这样会。与此同时，Self-RAG 通过特殊的训练流程，使生成的内容不仅通顺自然，与事实知识相符，甚至还可以追溯知识源。

2024-06-19 12:10:02 665

原创 Netflix 机器学习科学家的提示词优化经验分享

由于这个原因，提示词工程（通过大量的实证试验和反复优化，指导如何为特定任务设计高质量的prompt）变得极其受欢迎和具有影响力，行业目前已经积累了诸多有效的技术手段和优秀的实践方法。本文Netflix 机器学习科学家Cameron R. Wolfe的提示词优化经验分享，阐述了目前提示词的主要构成要素，介绍了与提示词相关的上下文窗口相关信息，并总结了一些行之有效的优化策略，如实事求是，实证为本、先从简单着手、若无必要，尽量简单明了、使用示例等，这些策略应能为在实践中优化提示词提供参考思路。

2024-06-15 10:08:04 1011

原创优化LLM Prompt：降低使用成本和响应延迟的实用技巧

当一段代码缺乏清晰的结构、正确的模块划分和合理的逻辑顺序，而是充斥着大量的嵌套条件语句、无序的跳转、重复的代码块时，就被视为"意大利面式代码"。这种架构使得我们能够在每次调用时，首先选取需要使用的特定任务提示词，而无需随附沉重的、消耗大量 tokens 的执行指令（execution instructions），从而平均减少了超过 60% 的 tokens 使用量。本文贯穿了一种务实的方法论 ------ 理性看待 LLMs 技术，扬长避短，与其他技术工具形成合力，而非将其视为解决一切问题的"灵丹妙药"。

2024-06-12 10:04:24 1040

原创 Next-Level Agents：释放动态上下文（Dynamic Context）的巨大潜力

文中强调，AI Agents 不应仅局限于使用固定提示词指令来定义，还应包含自己的动态上下文配置。通过简明的上下文类型划分，为每个 AI Agent 量身打造不同的上下文配置，将极大拓展其应用潜能。本文所述的动态上下文配置（Dynamic Context）仅是 AI Agents 系统架构的冰山一角，欢迎各位读者就此主题深入交流探讨。

2024-06-05 10:14:01 697

原创 LLMs 能否胜任「数据标注」？机遇与挑战并存

本文作者从业界最新研究入手，全面评估了 LLMs 在数据标注领域的应用前景。文章指出，在某些场景下使用 LLMs 确实可以加快标注流程、降低成本，但也需要注意 LLMs 存在一些局限性，如对提示词的高度敏感性、不能支持多种人类语言符号，以及难以模拟人类的内在推理逻辑等。因此，我们不能期望 LLMs 完全取代人工标注，特别是在涉及需要主观判断或敏感内容的领域。

2024-05-31 10:27:21 557

原创 AI Agent：人类工作范式的颠覆者还是人机协作新范式？

生成式 AI 只是人工智能发展的开端，未来可能会出现更先进的 AI 智能体系统（AI Agent），我们应当重视 Andrew Ng（译者注：Andrew Ng 是斯坦福大学计算机科学系和电气工程系的客座教授，曾任斯坦福人工智能实验室主任。作者相信人工智能的未来必将呈现出更智能、更自主的 AI Agent 形态。但是 AI Agent 强调的是综合智能，包括但不限于决策制定、环境交互和跨领域的知识应用，这样的智能系统能够适应更复杂的任务需求，并在与人的交流合作中展现出更强的灵活性和实用性。

2024-05-29 10:34:23 1120 1

原创自主 AI Agent 的构建｜Function Calling 技术实例探索

本期我们精心为各位读者伙伴呈现一篇详实的搭建技术教程，全面介绍了如何利用函数调用技术构建 Autonomous AI Agents 。作者从函数调用（Function Calling）的工作原理和应用场景出发，通过构建一个旅游服务助手的实例，层层递进地讲解了整个系统的设计思路、技术细节和代码实现。

2024-05-23 10:27:15 1209

原创 Advanced RAG 07：在RAG系统中进行表格数据处理的新思路

使用多模态 LLM （如 GPT-4V[14] 、LLaVA[15] 或 FUYU-8b[16]）从图像数据中生成文本摘要，然后将这些文本摘要嵌入向量化，利用这些嵌入向量，可以对图像摘要进行高效检索（retrieve），在检索到的每个图像摘要中，都保留有一个对应的原始图像的引用（reference to the raw image），这属于上文的 (i) 类方法，最后将未经处理的图像数据和文本块传递给多模态 LLM 以便生成答案。首先，使用（a）至（d）中的任何一种方法，将文档中的所有表格解析为图像形式。

2024-05-15 10:37:25 956

原创 LLMs应被视为一种文字计算器？

有时候我们会遇到一些看似不相关的或矛盾的想法，但通过我们的观察、感知、经验、学习和与他人的交流，我们可以发现这些想法之间可能存在某种联系，或这些想法可能是合理的。我们应该保持开放的思维，不仅仅局限于表面上的直觉，而是观察、感知、经验、学习和与他人的交流，来发现更深层次的意义和联系。17 世纪初，一位名叫埃德蒙·冈特的数学家和天文学家面临了一个前所未有的天文挑战——要计算行星的复杂运动轨迹并预测日食，天文学家不仅需要依靠直觉，还需要掌握复杂的对数运算和三角方程。然而，大语言模型生成的是人类语言。

2024-05-11 11:18:25 739

原创解构复合人工智能系统（Compound AI Systems）：关键术语、理论、思路、实践经验

本文作者深耕人工智能领域多年，洞见独到。文中系统性地介绍了四种常见的 Compound AI Systems 部署模式：RAG 系统、Conversational AI 系统、Multi-Agent 系统和 CoPilot 系统。作者阐明了这些部署模式的工作原理、模块间的交互方式，并深入探讨了“Agentic”理念、模块化设计的优势等核心概念，为读者构建 Compound AI Systems 提供了宝贵的理论经验。相信通过学习本文，读者们能够对如何构建 Compound AI Systems 有更深入的认

2024-05-10 11:20:21 809

原创 Advanced RAG 06：生成结果的相关性低？快用 Query Rewriting 优化技术

HyDE 方法看起来是无监督的，这种方法没有通过标注过的数据来训练任何模型，包括 generative model（译者注：其主要任务是从数据中学习数据的分布，然后可以用来生成类似于训练数据的新数据样本，通常用于生成图片、文本、音频等类型的数据。）这种方法中，新的 query 用 q+ 表示，是最初的 query（q）和 pseudo-documents（d’）的简单连接，用 [SEP] 分隔：q+ = concat(q, [SEP], d’)。）” 由于特定时间范围的限制，直接解决这一问题极具挑战性。

2024-05-07 11:21:49 1056 1

原创 Advanced RAG 05：探讨基于文本内在语义信息的数据分块方法

但是，如果在这些小数据块（small chunks）中找不到完整的信息，递归检索器（recursive retriever）会将相关的大数据块（larger chunks）传递到生成阶段（generation stage）进一步处理，就像我们在书中某个小节或段落查找资料时，如果需要更多信息，就会翻到相关的章节或整本书一样。通过 Semantic chunking（译者注：一种根据文本中的语义信息将文本分成有意义的片段或块的过程），希望每个数据块所包含的信息在语义上相对独立，以便更好地进行分析和处理。

2024-04-30 10:33:21 1129

原创提示词优化的自动化探索：Automated Prompt Engineering

在这些情况下，由于提示词工程（prompt engineering）仍然主要是通过不断的试验和调整来进行改进，而非一次性完成的，如何将自己的想法用于改进 Prompt ，并仍保留 Prompt 的通用性（如前文引述内容所说），并不总是一目了然的。我妈可能不太擅长把她对 ChatGPT 输出内容的不满转化为对提示词的进一步改进，但我意识到，无论我们的提示词工程技术如何，我们真正擅长的是表达我们所看到的问题（即抱怨）的能力。（根据我让它写过的成千上万篇文章，我目前的看法是肯定的）而且，

2024-04-25 13:04:25 1445

原创 Advanced RAG 04：重排序（Re-ranking）技术探讨

本文介绍了两种主要的 Re-ranking 方法，并演示了如何将其融入到 RAG 系统中，提高系统性能。分别是：(1) 使用 Re-ranking 模型直接对检索到的文档和 query 之间的相关性进行评分和排序。作者介绍了一些可用的开源和商业 Re-ranking 模型；(2) 利用大语言模型（LLM）对文档和 query 进行深入理解，通过对相关性程度进行排序来实现 Re-ranking 。文中介绍了 RankGPT 这种基于 LLM 的 Re-ranking 方法。

2024-04-20 10:18:48 1012

原创 Advanced RAG 03：运用 RAGAs 与 LlamaIndex 评估 RAG 应用

作者 | Florian June编译 | 岳扬🚢🚢🚢欢迎小伙伴们加入AI技术软件及技术交流群，追踪前沿热点，共探技术难题~如果你已经为某个真实业务系统开发了检索增强生成（RAG）应用程序，可能会想了解该 RAG 应用的效果如何。换句话说，您可能想评估该 RAG App 的性能。另外，如果发现现有的 RAG 应用效果不佳，可能还需要验证使用的 RAG 性能优化方法是否有效。换句话说，需要进行评估，确定这些性能优化方法是否起了作用。在本文，我们首先介绍了由 RAGAs（Retrieval Augment

2024-04-17 11:13:46 687

原创 LLM 推理优化探微 (4) ：模型性能瓶颈分类及优化策略

在人工智能浪潮袭卷全球的大背景下，进一步提升人工智能模型性能，满足更多应用需求已经刻不容缓。如何优化模型延迟和吞吐量，成为了业界亟待解决的重要问题。我们今天为大家带来的这篇文章，其观点为：不同的性能瓶颈需要采取不同的优化策略，识别并解决主要的性能瓶颈是提升模型性能的关键。文章指出，主要有 4 种影响模型性能的瓶颈：计算能力受限、内存带宽受限、通信受限和开销受限。作者分别介绍了针对这 4 种情况可采取的优化措施。另外，文章还全面分析了算术强度和硬件配置等因素对吞吐量的影响。作者提出可通过增加算术强度、

2024-04-11 11:07:43 1112

原创 Advanced RAG 02：揭开 PDF 文档解析的神秘面纱

这篇文章系统地分析了 PDF 文档解析中的各种挑战，并给出了一系列解决思路和改进算法，为进一步提高非结构化数据解析的质量贡献了有价值的见解，同时也指出了未来 PDF 文档解析的发展方向。例如，如果用户想了解图 9 中第 2.1 节的大意，只需准确提取出第 2.1 节的标题，并将其与相关内容一起作为上下文发送给 LLM，最终所得到的回复内容的准确性就会大大提高。在这种情况下，建议选择最适合项目需求的方法，根据不同类型的 PDF 文件，采取特定的处理方法。否则，将其视为右列的一部分。该页面如图 3 所示。

2024-04-07 10:20:48 1265

原创 Advanced RAG 01：讨论未经优化的 RAG 系统存在的问题与挑战

自 2023 年以来，RAG 已成为基于 LLM 的人工智能系统中应用最为广泛的架构之一。由于诸多产品的关键功能严重依赖RAG，优化其性能、提高检索效率和准确性迫在眉睫，成为当前 RAG 相关研究的核心问题。我们今天为大家带来的这篇文章指出，Naive RAG 在编制索引、检索和内容生成这三个核心步骤中都存在诸多问题：a) 编制索引时，信息提取不完整、分块策略简单、索引结构未优化、嵌入模型表示能力较弱；b) 检索时，检索到的信息与用户向系统提出的请求相关性不高、召回率低、对不准确的用户请求无法处理、算法

2024-04-03 11:24:28 773

原创 LoRA 及其衍生技术总览：An Overview of the LoRA Family

对于大语言模型的微调训练来说，传统的全参数微调方法需要处理数百万甚至数十亿级别的参数，计算量和显存占用都非常大。而 LoRA 这种技术方案，通过引入少量的可训练矩阵来调整预训练模型的行为，极大降低了训练所需的计算资源，是近年来大语言模型微调的一个重大突破。我们今天为大家带来的文章，介绍了众多具有代表性的 LoRA 改进方法：LoRA+ 通过为两个矩阵引入不同的学习率提高训练效率；VeRA 和 LoRA-FA 通过训练更少的参数降低计算量；LoRA-drop 和 AdaLoRA 通过动态选择需要训练的层提

2024-03-30 09:05:10 1049

原创发掘非结构化数据价值：AI 在文档理解领域的现状与未来

在当今这个由数据主导的时代，我们被海量多样的信息所环绕，但大部分数据都以非结构化的形式存在，诸如文档、电子邮件、合同等，这使得从中提取有价值的信息成为一大挑战。幸运的是，AI 领域正在悄然孕育一场革命性变革，它将帮助我们攻克长期以来困扰非结构化数据处理的种种困难。

2024-03-28 10:25:02 487

原创 Mistral AI vs. Meta：两大 Top 开源模型的对比

随着大模型的不断升级和参数量的持续扩大，越来越多人开始重视大模型存在的硬件资源要求高、碳排放量较大等问题。如何在保持模型性能的同时，降低计算成本和资源消耗，成为了业界一个迫切需要解决的问题。我们今天为大家带来的这篇文章，作者认为 Mistral AI 提出的一系列创新技术方案为解决这一问题提供了新思路。

2024-03-20 11:02:24 748

原创生成式 AI 术语指南：带有配图说明，没有数学公式

生成式人工智能技术的发展日新月异，这一领域涉及到了越来越多的专业术语和概念。对于刚接触这一领域的新手来说，理解这些术语算是一个门槛。我们有必要整理和解释这些术语，帮助更多人快速入门，投身 AI 事业。文章首先将这些生成式 AI 术语分为11大类，包括Types of Models、Common LLM Terms、LLM Lifecycle Stages等。然后对每一类术语进行了详细的解释和举例说明。这篇文章系统全面地总结了当前生成式人工智能领域的主流术语和概念，涵盖了理论、架构、评估、优化等多个方

2024-03-15 10:28:06 895

原创 LLM 推理优化探微 (3) ：如何有效控制 KV 缓存的内存占用，优化推理速度？

本文主要内容如下：(1) KV缓存随序列长度线性增长，容易超过模型本身的规模，严重制约最大序列长度； (2) 减小KV缓存对GPU内存的占用，是优化推理速度和吞吐量的关键； (3) MQA、GQA等新型注意力机制、FastGen等缓存压缩策略，以及PagedAttention等内存管理机制，都是能够有效缓解 KV 缓存内存占用压力的技术手段。

2024-03-09 14:34:06 1361

原创 LLM 推理优化探微 (2) ：Transformer 模型 KV 缓存技术详解

假设有一批输入序列（input sequences），数量为 b 个，每个序列由 N 个生成的 tokens 和 t 个输入的 tokens （总长度为N+t）组成，对于这些序列的前 t+N-1 个 tokens，计算 KV 值是冗余的，也就是说，在生成步骤的第 N 步，我们可以为每个序列节省 t+N-1 次 KV 计算。由于在注意力计算中使用了 masking 技术，在每一步生成步骤中，实际上都可以不用重新计算过去 tokens 的键向量和值向量，只需计算最后生成的 token 的键向量和值向量。

2024-03-06 11:46:08 1782

空空如也

空空如也