自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (3)
  • 收藏
  • 关注

原创 GraphRAG与VectorRAG我都选:HybridRAG

从金融应用中产生的非结构化文本数据(如财报电话会议记录)提取和解释复杂信息,即使采用当前最佳实践使用检索增强生成(RAG)技术,对于大型语言模型(LLMs)来说仍存在重大挑战。这些挑战包括领域特定术语和文档格式的复杂性。本文介绍了一种称为 HybridRAG 的新方法,它结合了基于知识图谱(KGs)的RAG技术(称为GraphRAG)与VectorRAG技术,以提高从金融文件中提取信息的问答系统性能,并能够生成准确且上下文相关的答案。

2024-09-19 10:03:52 573

原创 AgentRE:用智能体框架提升知识图谱构建效果,重点是开源!

在复杂场景中,关系抽取 (RE) 因关系类型多样和实体间关系模糊而挑战重重,影响了传统 "文本输入,文本输出" 语言模型的性能。为此,我们提出了基于代理的 RE 框架 AgentRE,该框架通过整合大型语言模型的记忆、检索和反思能力,有效应对这些挑战。AgentRE 包含三大模块,助力代理高效获取并处理信息,显著提升 RE 性能。实验表明,AgentRE 在低资源环境下表现卓越,并能生成高质量训练数据,用于优化小型模型。

2024-09-13 09:50:45 574

原创 Agent四大范式 | 综述:全面理解Agent工作原理

随着大型语言模型(LLMs)展现出显著的智能,将其应用于自主代理规划模块的研究受到了广泛关注。本综述首次系统性地审视了基于 LLM 的代理规划,涵盖了提升规划能力的最新研究成果。我们对现有的 LLM-代理规划研究进行了分类,将其分为任务分解、计划选择、外部模块、反思和记忆等类别,并针对每个方向进行了深入分析。同时,我们也探讨了该研究领域面临的挑战。

2024-09-12 10:13:44 744

原创 又来一个RAG:RankRAG,英伟达RAG新思路

我们提出了一种名为 RankRAG 的创新指令微调框架,该框架使单个 LLM 能够同时进行上下文排序和答案生成,显著提升了 RAG 的性能。通过在训练中融入少量排序数据,RankRAG 不仅超越了专门优化的排序模型,还在生成任务上表现卓越,击败了包括 GPT-4 在内的多个顶尖模型。特别是在知识密集型和生物医学领域的基准测试中,RankRAG 展现了其强大的泛化能力,无需特定领域的微调即可与 GPT-4 媲美。

2024-09-12 09:30:36 969

原创 HomeDepot:RAG能否在提高客服实际效率?ReACT推理是否有帮助?

RAG based Question-Answering for Contextual Response Prediction System大型语言模型 (LLM) 在多种 NLP 任务中表现出色,尤其在问答系统方面潜力巨大。然而,在行业应用中,为了提供精准且相关的信息,LLM 需要依赖全面的知识库,以避免信息失真。检索增强生成 (RAG) 技术应运而生,成为解决这一难题的希望。但利用 RAG 构建实际应用中的问答框架,仍面临三大挑战:数据获取难、生成内容质量评估难、人工评估成本高。本文提出一个端到端框架,

2024-09-11 11:32:40 643

原创 下一代RAG:MemoRAG

MemoRAG是一个建立在高效、超长记忆模型之上的创新 RAG(Retrieval-Augmented Generation)框架,由智源研究院(北京人工智能研究院)与中国人民大学高瓴人工智能学院联合推出并开源。MemoRAG:通过记忆启发的知识发现迈向下一代RAG,为 RAG 提供基于内存的数据接口,适用于多种用途的应用程序!

2024-09-11 11:14:04 856

原创 RB-SQL:利用检索LLM框架处理大型数据库和复杂多表查询的NL2SQL

利用密集型段落检索(Dense Passage Retrieval, DPR)模型来检索相关表格、列和示例,以构建有效的提示工程。此外,框架还引入了SQL骨架作为示例组织中的中间步骤,以指导正确的SQL生成过程。表格检索器从数据库中筛选表格,列检索器进一步筛选列。SQL框架检索器用于选择相似的少量示例,并将SQL框架添加到示例组织中。:搜索具有相似SQL骨架的少量示例,并将SQL骨架引入示例组织,以增强上下文学习过程。该模块计算问题与表格之间的相似度,并检索与问题高度相关的表格。(b) 列检索器的框架。

2024-09-10 10:30:51 632

原创 新鲜出炉2个RAG技巧,高级RAG更高级!

上周比较火的2个内容,一个是 JinaAI 发布的一个关于 late chunking 的博客,另外一个是英伟达最新挂出来的 RAG-OP 的论文。2个都能让已有的 RAG 系统召回测有一个比较不错的提升,并且实现都非常容易。

2024-09-10 10:20:35 500

原创 GoogleSQL:SQL 中的 Pipe 语法

SQL 长期以来一直是结构化数据处理的主导语言,通过本文,GoogleSQL 团队引入了一种新的管道结构化数据流语法,该语法显著提高了 SQL 的可读性、可扩展性和易用性。

2024-09-06 11:05:55 1103

原创 南大与微软EfficientRAG:迭代分解Query提升多跳问答效果!

多跳问答是一类复杂的查询,需要通过多步骤推理来找到答案,这通常超出了单个信息检索回合能够提供的信息范围。为了解决复杂问题,南大与微软提出EfficientRAG,它由两个轻量级组件构成:Labeler & Tagger和Filter。这两个组件都作为标记级别的分类器,用于识别和过滤信息。

2024-09-05 09:35:55 427

原创 一篇大模型NL2SQL全栈技术最新综述

随着LLM的出现,NL2SQL的性能得到了极大的提升,这显著降低了访问关系数据库的障碍,并支持各种商业应用。本文提供了一个全面的NL2SQL技术综述,覆盖了整个生命周期,包括模型、数据、评估和错误分析四个方面。

2024-09-04 17:17:14 835

原创 Tool-SQL:基于Agent智能体的Text2SQL解决方案,显著提升Text2SQL效果

近期,Text-to-SQL 技术通过整合数据库系统的反馈,有效利用了大型语言模型(LLMs)。尽管这些技术能有效纠正 SQL 查询的执行错误,但在处理数据库不匹配问题上仍显不足这类问题不会引发执行异常。为此,我们设计了一个辅助工具框架,包括检索器和检测器,专门用于诊断并修正 SQL 查询中的不匹配问题,从而提升 LLM 在实际应用中的查询处理能力。

2024-09-04 10:02:01 950

原创 前沿重器[54] | 聊聊搜索系统7:补充模块

RAG在整个大模型技术栈里的重要性毋庸置疑,而在RAG中,除了大模型之外,另一个不可或缺的部分,就是搜索系统,大模型的正确、稳定、可控生成,离不开精准可靠的搜索系统,大量的实验中都有发现,在搜索系统足够准确的前提下,大模型的犯错情况会骤然下降,因此,更全面、系统地了解搜索系统将很重要。

2024-08-29 10:03:17 59 1

原创 前沿重器[55] | prompt综述的解释和个人思考

上周手上不太方便,即使后续好了也没有搞定(不过说实话,这篇文章的量似乎没读完也不好搞定)。最近是有3篇prompt的综述非常出名:每篇综述的内容都比较丰富,尤其是第一篇,已经到了76页,然而从综述角度,需要把尽可能完善地把研究领域内的关键文章都给说明白,然而从应用角度或者学习角度,从中能找到适合自己的部分,快速过滤和筛选则更为重要,今天这篇文章,是综合上述3篇综述的内容以及个人在实际应用中的经验,从中抽取可靠的方案和思路总结。

2024-08-29 09:56:24 196

原创 CDH6.2调优总结

集群搭建完成后,性能调优是必不可少的,调优分为 硬件调优、组件调优、任务调优,本文档将这三部分调优的内容进行穿插讲解,是最全面的大数据调优文档,用了的都说爽,非常 nice !!!

2024-02-08 15:00:00 993

原创 CDH软硬件配置建议(Cloudera 官方)

基于cdh的官方软硬件配置建议,用于搭建hadoop大数据集群前期的硬件规划以及组件角色规划,根据官方大哥的思路做规划肯定能够保证不出错,非常 nice!

2024-02-08 14:00:00 285

原创 大数据平台硬件选型

在部署大数据平台前,需要做的最重要的一部分公司就是硬件服务器的选型,这部分一定要根据业务的实际情况来选择不同的服务器,原则是既能满足未来三年的业务发展也要尽可能的缩减成本,硬件服务器可考虑自建IDC或用云服务器,本方案是以自建服务器为前提的,本教程可以让你理解选型的方案以及目标,非常 nice !!

2024-02-07 16:34:51 463

原创 CDH6.2 在线扩容

当你大数据集群的规模已经无法满足当前数据需求时,就需要在线对集群进行扩容,该文章从头到尾手把手教你如何扩容 hadoop 集群,跟着我来做非常 nice!!!

2024-02-07 15:47:28 950

原创 手把手教你离线搭建CDH6.2

基于自建 parcels 的方式进行CDH6.2的大数据集群搭建,手把手教你安装,亲测可用,从基础的系统环境搭建、参数优化、硬件划分原则到后期的使用维护及日常运维,应有尽有,是我工作中的实战,后续还会不断维护,请参照下面的步骤实现,非常nice!!!

2024-02-07 13:57:00 1399

原创 LVM磁盘管理

使用LVM进行服务器的磁盘管理,让你的磁盘无限扩容,请参照下面的步骤实现,非常nice!!!为便于今后对磁盘的扩展,及统一管理,建议在LINUX操作系统增加硬盘时采用LVM进行管理,同时各分区使用XFS格式。

2024-01-07 18:24:34 464

原创 Centos7 离线搭建 NTP服务

在配置时钟同步服务器时第一次同步时间时,使用ntpdate命令;后续通过ntpd服务与服务器同步时间。一、搭建NTP服务器1、查看服务器、客户端操作系统版本[root@web ~]# cat /etc/redhat-releaseCentOS Linux release 7.5.1804 (Core)2、查看服务器是否安装ntp,系统默认安装ntpdate;...

2019-08-16 11:26:28 2314

CDH软硬件配置建议-20240207.pdf

基于cdh的官方软硬件配置建议,用于搭建hadoop大数据集群前期的硬件规划以及组件角色规划

2024-02-07

将xxl-job-1.7.2导入到myeclipse并部署到tomcat

xxl-job-1.7.2导入到myeclipse并部署到tomcat的正确方法 基于tomcat8.x 亲测 完美通过

2017-07-13

JAVA获取磁力链接

JAVA获取磁力链接

2016-12-16

JAVA基于webCollector实现的爬去网络种子(磁力链接,迅雷资源),你懂得- -

JAVA基于webCollector实现的爬去网络种子(磁力链接,迅雷资源),你懂得- -

2016-12-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除