yubinCloud-CSDN博客

原创【RAG 实践】LlamaIndex 快速实现一个基于 OpenAI 的 RAG

一个使用 LlamaIndex 实现的 RAG demo

2024-07-13 20:39:11 1635

原创【LLM 评估】GLUE benchmark：NLU 的多任务 benchmark

经典的 GLUE benchmark：包含 9 个 NLU 任务来评估 LM 的语义理解能力。这些任务均为 sentence or sentence-pair NLU tasks，语言均为英语。

2024-06-29 20:32:53 1749

原创【LLM 评估】MMLU benchmark：用于衡量 LM 的多任务语言理解能力

一个 benchmark：涉及 57 个 subjects 的多项选择题的数据集，共 15908 个 questions

2024-06-29 16:06:13 3865

原创【Text2SQL 论文】MCS-SQL：利用多样 prompts + 多项选择来做 Text2SQL

MCS-SQL 利用 LLM 的输出对 ICL exemplars 敏感的特点，通过变换 exemplars 的选择和呈现顺序，构建出多个 prompts 来得到多个候选 SQL，然后再过滤后引导 LLM 从中选出最精确的 SQL。

2024-06-26 22:24:24 2109

原创【Text2SQL 论文】MAGIC：为 Text2SQL 任务自动生成 self-correction guideline

这篇论文着重指出了 in-context learning 的 Text2SQL 任务中 self-correction 的新颖视角，将提升 Text2SQL 中的 self-correction 作为一个单独的任务，克服了以往方法需要手工设计 self-correction guideline 的缺点。同时，这篇论文还解决了自动修复人类生成的错误 SQL 的重要任务，展示了 LLM 进行自我校正的能力。

2024-06-25 22:10:10 1608 1

原创【LLM 论文】Self-Refine：使用 feedback 迭代修正 LLM 的 output

论文提出了 Self-Refine，核心就是反复迭代 Feedback 和 Refine 操作，从而让 LLM 在具体任务上有更好的表现。论文在多个任务上进行了实验，发现 Self-Refine 可以有效地在各种任务上提升 LLM 的表现，当在较弱的小模型上则表现不佳（会重复输出）。

2024-06-25 11:18:23 2891

原创【Text2SQL 论文】CodeS：Text2SQL 领域的开源语言模型

这篇论文开源了一个很不错的 Text2SQL 领域的 LLM，并同时开放了相关的新的数据集，在实际部署时，无论是基于 CodeS 还是另外再微调，这篇论文的思路都值得参考。

2024-06-14 16:33:23 1627

原创【Text2SQL 论文】CHESS：利用上下文来合成 SQL 的 pipeline

CHESS pipeline 在 BIRD 和 Spider 数据集上都取得了不错的表现。此外，CHESS 还开发了一个完全开源的版本，可以私有部署，且在 BIRD 上执行准确率超过 60%，缩小了闭源和开源 LLM 的性能差距，同时保证了企业数据隐私。但对于 BIRD 数据集，目前的模型仍然不如人类写 SQL 的表现，未来的工作应该旨在进一步缩小这个差距。此外，设计更高精度的 schema selection 方法是未来研究的一个高影响领域，可以对准确性产生巨大影响。

2024-06-11 17:31:06 1660 1

原创【李宏毅-生成式 AI】Spring 2024, HW5：LLM Fine-tuning 实验记录

李宏毅生成式 AI 课程的 Lab Homework 5 实验的笔记

2024-06-10 16:27:18 1679

原创【Text2SQL 论文】PET-SQL：用 Cross-Consistency 的 prompt 增强的两阶段 Text2SQL 框架

PET-SQL 的两阶段思路还是挺好理解上，prompt 设计上主要多了 db content 样例，整个过程中，使用 question de-semanticization 来提取问题骨架表示问题意图在实现上应该是整个流程里最复杂的。

2024-06-08 15:05:53 1886 1

原创【Text2SQL 论文】C3：使用 ChatGPT 实现 zero-shot Text2SQL

本文提出的 C3 基于 ChatGPT 实现了 zero-shot Text2SQL，并取得了 zero-shot 的最好性能。C3 从模型输入、模型偏差和模型输出三个角度为基于 GPT 的 Text2SQL 提供了系统的处理方法。这些方法值得后面的研究来参考。

2024-06-07 19:58:27 1757 1

原创【Text2SQL 论文】How to prompt LLMs for Text2SQL

整的来说，论文在三种 Text2SQL ICL settings 中比较了各种 prompt constructions 的效果，为未来的研究提供了指导。

2024-06-06 21:02:51 1317

原创【Text2SQL】评估 LLM 的 Text2SQL 能力

⭐⭐⭐⭐。

2024-06-06 16:14:14 1704

原创【Text2SQL 论文】QDecomp：探索 CoT-style 的 prompt 来解决 Text2SQL

本文基于 Codex 的 LLM 来探索了 CoT-style 的 prompting 效果，增强了 LLM 对 Text2SQL 解析的推理能力。论文发现了 CoT 在 Text2SQL 任务中会出现错误传播问题，本文提出的 QDecomp 方法是缓解 LLM 多步骤推理中错误传播问题的尝试之一，之后值得对这个问题进行更深一步的探讨。

2024-06-04 22:11:52 1650 1

原创【Text2SQL 论文】MAC-SQL：多个 Agents 合作来解决 Text2SQL

本论文利用多个 agents 合作的思路来解决 Text2SQL 任务，同时提供了一个开源的 SQL-Llama 模型，在 BIRD 数据集上实现了 SOTA 效果。

2024-06-04 11:37:10 1893

原创【Text2SQL 论文】DBCopilot：将 NL 查询扩展到大规模数据库

指的是：只给定 user question 而不给定预期的 SQL query schema（DB 和 DB tables），来生成一个可以在一个数据库集合中的某个 DB 上执行的 SQL。像之前 WikiSQL 数据集上，都是指定 question 在哪个 DB 上的。本文提出了 DBCopilot 模型，给出了一种将 NL 查询扩展到大规模数据库的思路，通过 LLM 协作来解决模式无关的 NL2SQL 任务。

2024-06-02 16:02:47 1485 1

原创【Text2SQL 论文】DIN-SQL：分解任务 + 自我纠正 + in-context 让 LLM 完成 Text2SQL

本论文设计的 prompt 以及思路让 LLM 在解决 Text2SQL 任务上有了不错的表现，产生了与最先进的微调方法相当甚至更优的结果。但是，本文的思路需要多轮与 LLM 交互，从而产生了巨大的花费和延迟，论文给出，在使用 GPT4 响应 Spider 数据集中 question 时表现出大约 60s 的延迟。

2024-05-31 21:38:29 2374

原创【Text2SQL 论文】T5-SR：使用 T5 生成中间表示来得到 SQL

本文模型是通过引入中间表示并使用 seq2seq（T5）来解决 Text2SQL 任务，同时论文中也指出了使用 seq2seq 在 Text2SQL 任务下的难点。该工作还引入了 SSQL 这样的中间表示，它比 SemQL、RAT-SQL IR 等中间表示要简单不少。

2024-05-30 16:45:16 1300

原创【Text2SQL 论文】评估 ChatGPT 的 zero-shot Text2SQL 能力

与 ChatGPT 进行多轮交互，以解决生成不可执行的 SQL 语句的问题利用 DB 的报错来设计多轮对话，从而确保生成的 SQL 正确性引入 in-context learning。

2024-05-29 20:43:03 1309

原创【Text2SQL 论文】IncSQL：通过增量式生成 action 序列来得到 SQL

⭐⭐⭐。

2024-05-27 21:40:48 1100

原创【Text2SQL 论文】SeaD：使用 Schema-aware 去噪训练的 end2end 的 Text2SQL

实验在 test 结果上达到了 93 的准确率，但没有公开 code。但本文提出的思路还是值得学习的。

2024-05-26 15:43:08 660

原创【Text2SQL 经典模型】HydraNet

在 WikiSQL 上做了实验，发现 HydraNet 的性能优于其他方法。尤其值得注意的是，其表现甚至与使用了 MT-DNN 作为 PLM 的 X-SQL 效果一样好，尽管 MT-DNN 明显比 BERT-Large 要好。另外，HydraNet 的架构更加简单，参数也更少，它只在 PLM 的输出中增加了 Dense 层。这样得到的 HydraNet 泛化性更好。

2024-05-25 16:50:42 1144

原创【Text2SQL 经典模型】X-SQL

通过以上改进，X-SQL 在表现 WikiSQL 上的表现提升到 90% 以上，超过了 SQLova：本文对 BERT-style 生成的 representation 的进一步的加工利用值得研究学习。

2024-05-24 22:01:41 1358 1

原创【Text2SQL 论文】SQLova：首次将 PLM 应用到 NL2SQL 中

这篇论文对 SQLNet 进行改进，首次尝试引入 PLM 来获得 context embedding。在实现思路上与 SQLNet 类似，也是先预先构建一个 SQL sketch，然后再填充 slots。本文提出的模型 SQLova 分为两个 layers：encoding layer 和 NL2SQL layer：在 NL2SQL layer 中，思路与 SQLNet 类似，使用了多个 model 来填充 SQL sketch 中的不同 slots 从而生成 SQL。分别介绍 SQLova 的两个 lay

2024-05-24 10:57:40 1055

原创【Text2SQL 经典模型】TypeSQL

借助于数据库的 table schema 检索和 knowledge graph 的检索，为 question 的每个 word 标注一个 type，从而提高 embedding 的效果当 database content 可用时，type 标注时还会进一步对 column content 做检索，并为其标注 column name，这样当用户的 question 中的所提到的列名或者条目不精确时，也可以通过这个步骤来对应到具体的数据库 column，从而提高效果，实现所谓的“内容敏感性。

2024-05-23 20:06:02 1405

原创【Text2SQL 经典模型】SQLNet

⭐⭐⭐⭐。

2024-05-23 11:47:11 1085

原创【Text2SQL】Spider 数据集

模型将被在不同的复杂 SQL、复杂数据库、复杂 domains 上被测试，要求模型能够对 question 理解语义，并对新的数据库有泛化能力。任务不评估模型生成 value 的能力，因为这个 benchmark 侧重评估预测出正确的 SQL 结构和 columns，数据集中也被排除了需要常识推理和数学计算的 querys。论文工作还对数据库的 table names 和 column names 做了清洗，让这些名字清晰且自成一体。比如将stu id转为student id。

2024-05-19 22:12:20 7156

原创【Text2SQL】WikiSQL 数据集与 Seq2SQL 模型

这篇论文给出了一个 WikiSQL 数据集，并提出了 Text2SQL 的一个解决方案以及评价指标。但是很明显，该方案存在不少缺点，之后的方案会继续改进。

2024-05-18 18:02:58 1617

原创【RAG 论文】IRCoT：基于 CoT 的交叉检索解决多步骤问题

大多数 RAG 都是一次检索来辅助 LLM 生成，但是面对多步骤推理问题，往往需要多次检索多次推理才能解决。本文提出了 IRCoT：交叉进行 CoT 指导 retrieval 和使用 retrieval result 提升 CoT。也就是说，retrieval 和 reason 两个步骤必须相互通知。下图给了一个例子：对于如上的问题, “In what country was Lost Gravity manufactured?” 单独问 LLM 或者单独在维基百科上搜索, 都很难得到答案. 但是通过如下步

2024-05-15 21:32:57 3430

原创【RAG 去噪】引入 NLI 模型来为 RAG 去噪

这篇论文引入 NLI（Natural Language Inference）模型来判定 retrieved doc 是否需要用于辅助 LLM 回答。NLI 模型用于判定一个 hypothesis 与 premise 的关系如下三者之一：“蕴含（entailed）”、“中立（neutral）”、“矛盾（contradicted）”。具体到 RAG 中，question + LLM answer 作为 premise，retrieved doc 作为 hypothesis，由 NLI 模型判定两者是否是 ent

2024-05-15 19:27:37 1014

原创【RAG 论文】UPR：使用 LLM 来做检索后的 re-rank

这两篇论文给了我们使用 LLM 来做 QLM re-rank 的思路，展现了通用的 LLM 本身具备强大的 QLM re-rank 的能力。

2024-05-14 22:16:37 1806

原创【RAG 论文】BGM：为 LLM 和 Retriever 的偏好 gap 搭建一个 Bridge

本论文提出的问题是现实存在的：LLM 和 Retriever 往往都是 Frozen 的，都是无法微调的，但两者之间的 preference gap 又是明显存在的。本文提出引入一个 Bridge Model 来填补这个 gap，但是本文提出的训练方法有点太复杂了，也许有进一步简化的思路。

2024-05-13 22:29:10 1402 1

原创【RAG 论文】AAR：训练一个LLM喜欢的检索器来做RAG

神奇的是，在一个 LLM 上得到的 preference 竟然可以迁移到其他 LLM，也许是可能大家的训练数据都差不多FiD 是只能用于 encoder-decoder 架构的 LM，现在 decoder-only model 居多的情况下，需要做一些改进了，比如用于衡量 preference 的 score 也许可以由 LLM 直接生成，而不是间接通过 FiD 机制。

2024-05-12 22:38:38 1001

原创【RAG 论文】FiD：一种将 retrieved docs 合并输入给 LM 的方法

encoder 独立处理每个 passage，因此只需要在一个 passage 上执行 self-attention，这意味着模型的计算时间随着段落数量呈线性增长，而非二次增长。由 decoder 来联合聚合多个 retrieved passages，可以更好的从中找到相关支持信息。论文最后指出，如何将 FiD 更好集成到 RAG 模型仍然值得探索。

2024-05-12 21:33:06 1057

原创【RAG 博客】RAG 应用中的 Routing

⭐⭐⭐⭐根据用户的查询意图，在 RAG 程序内部使用 “Routing the control flow” 可以帮助我们构建更实用强大的 RAG 程序。路由模块的关键实现就是一个 Router，它根据 user query 的查询意图，来将该请求的处理转发到多个下游 handlers 之一。

2024-05-11 21:49:15 2450

原创【RAG 论文】Contriever：对比学习来无监督训练文本嵌入模型

⭐⭐⭐⭐⭐。

2024-05-11 19:18:23 2564

原创【LLM 论文】Step-Back Prompting：先解决更高层次的问题来提高 LLM 推理能力

通过一些 few-shot exemplar 即可使用 in-context learning 来学会，

2024-05-10 22:02:06 2159

原创【LLM 论文】Chain-of-Verification：通过验证链来减少 LLM 幻觉

验证链（CoVe）通过让 LLM 审议自身的 response 来自我纠正从而减少 LLM 的幻觉问题，特别是将验证过程分解为一组更加简单的问题，能够让模型相比于回答原始查询时能有更高的准确性，从而能够发现一些自身原始 response 可能存在的问题。论文也指出，在第三个步骤“执行验证”中，使用 RAG 方法可能会进一步带来收益。在第三个步骤“执行验证”中，使用 RAG 方法可能会进一步带来收益。

2024-05-10 20:15:08 1056

原创【LLM 论文】Least-to-Most Prompting 让 LLM 实现复杂推理

论文指出，该方法的 decomposition prompt 不能很好地跨域泛化，在一个 domain 上 decomposition 的示例无法有效地用在另一个 domain（task）上。总的来说，本工作提出了 least-to-most prompting 的方法，通过自顶向下的问题分解和自底向上的子问题解决实现了最终的解决问题。在该方法中，prompt 由以前的单向与 LLM 交流变成了双向的互动。通过双向交互来指导 LLM 仍然值得探索。pt 由以前的单向与 LLM 交流变成了双向的互动。

2024-05-09 22:04:19 2224 1

原创【RAG 博客】Small-to-Big Retrieval

这篇 blog 提出的思路是：基于更小、更有针对性的 text chunk 进行 embedding 和 retrieval，但仍然使用较大的 text chunk 来为 LLM 提供更多的上下文信息。也就是在检索过程中使用较小的 text chunk，然后将检索到的文本的对应的更大的 text chunk 给 LLM。技术试图解决这样一个矛盾：更大的 chunk 可以包含更多有用的信息，但其包含的较多无用文本又会掩盖 semantic representation 从而导致检索效果的变差。

2024-05-08 21:37:26 1624

空空如也

空空如也