LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”-CSDN博客

LlamaIndex团队Talk：

报告人：Jerry Liu, LlamaIndex co-founder/CEO，
报告时间：June 11, 2024
报告主题：“在复杂文档上构建高级的RAG”，
主题原文：“Building Advanced RAG Over Complex Documents”
报告概要内容如下：

技术报告强调了数据质量（RAG is only as Good as your Data）在构建高效RAG系统中的核心作用，并探讨了如何通过引入Agent的概念来克服RAG的局限性，实现更复杂、更动态的查询处理和任务执行。通过工作坊和实践指导，提供了将这些理论应用到实际构建中的途径。

数据质量的重要性

数据质量基础：强调了“垃圾进，垃圾出”（Garbage in = Garbage Out）的原则，指出数据质量是任何生产级LLM应用的关键组成部分。
数据解析：不良的解析器会导致数据质量下降，即使是最优秀的LLM也会被格式混乱的文本或表格所困扰。
LlamaParse：一个专为构建复杂文档RAG而设计的特殊文档解析器，支持多种文档类型和功能。
数据分块：在分块文档时尽量保留语义相似的内容，并提出了不同级别的文本分割方法，以页面级别分块作为强基线。
数据索引：原始文本经常会混淆嵌入模型，建议不仅要嵌入原始文本，还要嵌入引用，并提倡多个嵌入指向同一文本块的做法。

RAG的局限性与改进

简单RAG的挑战：简单RAG方法在处理简单问题和小型文档集时表现良好，但在生产环境中处理更复杂的问题和大型数据集时存在困难。
RAG的失败模式：包括在复杂数据上提出简单问题、跨多个文档提问以及提出复杂问题时的挑战。

从RAG到Agent的转变

RAG的局限性：RAG在单次尝试中缺乏对查询的理解、规划、工具使用、反思和错误纠正，且是无状态的。
Agent的优势：Agent系统的概念，它支持多轮对话、查询/任务规划层、与外部环境的工具接口、反思和个性化记忆。
Agent成分：构建Agent系统所需的成分，包括查询规划、记忆和工具使用。
Agent类型：简单和高级Agent，简单Agent成本和延迟较低，而高级Agent则相反。

Agent系统的构建

核心组件：构建完整的Agent系统所需的最小必要成分包括查询规划、记忆和工具使用。
Agent推理循环：顺序推理、基于DAG的确定性规划和基于树的随机规划方法。
自我反思：使用反馈来改进Agent的执行并减少错误，包括人类反馈和LLM反馈。
额外要求：Agent系统的可观察性、可控性和可定制性，以及多Agent交互的定义。

详细报告内容：

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_深度学习

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_数据质量_02

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_分块_03

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_人工智能_04

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_分块_05

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_分块_06

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_机器学习_07

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_深度学习_08

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_分块_09

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_人工智能_10

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_深度学习_11

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_深度学习_12

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_深度学习_13

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_数据质量_14

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_人工智能_15

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_分块_16

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_人工智能_17

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_数据质量_18

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_数据质量_19

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_机器学习_20

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_深度学习_21

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_人工智能_22

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_人工智能_23

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_数据质量_24

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_人工智能_25

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_深度学习_26

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_深度学习_27

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_分块_28

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_人工智能_29

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_数据质量_30

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_人工智能_31

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_机器学习_32

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_机器学习_33

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_人工智能_34

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_深度学习_35

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_机器学习_36

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_分块_37

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_机器学习_38

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_深度学习_39

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_分块_40

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_数据质量_41

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_数据质量_42

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_分块_43

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_机器学习_44

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_人工智能_45

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_分块_46

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_机器学习_47

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_数据质量_48

LlamaIndex-2024数据AI峰会报告：RAG之“垃圾进，垃圾出”_数据质量_49

对于RAG整个框架的更多技术，PaperAgent团队RAG专栏进行过详细的归纳总结：高级RAG之36技（术）。

高级RAG之36技试看私信获取：RAG专栏高级RAG之36技试看：https://docs.qq.com/aio/DR0dBWm9WYlJNckxw?p=dIxns4m9ounpDQ9pRCV7zu

解释

原创作者: u_13046751 转载于: https://blog.51cto.com/u_13046751/11337388