HKUDS（港大实验室）介绍

最新推荐文章于 2025-11-18 16:10:49 发布

原创最新推荐文章于 2025-11-18 16:10:49 发布 · 934 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

LLM 同时被 2 个专栏收录

78 篇文章

订阅专栏

RAG

7 篇文章

订阅专栏

概述

在RAG-Anything这篇文章，甚至更久之前就注意到一个很牛批的开源组织HKUDS，香港大学数据智能实验室，一支专注于数据科学和人工智能研究的团队。由黄超教授领导，致力于推动人工智能技术在数据科学领域的研究，涵盖大语言模型、图神经网络、信息检索、推荐系统、时空数据挖掘等多个前沿领域。实验室的研究成果广泛发表在KDD、WWW、SIGIR、WSDM、NeurIPS、ICML、ICLR等国内外期刊。

LightRAG

论文，GitHub，21.7K Star，3.3K Fork。

突破传统RAG系统的诸多限制，实现：

极简部署：一键启动，无需复杂配置
极致性能：毫秒级响应，千QPS并发
极强扩展：模块化设计，随需定制
极佳体验：可视化界面，所见即所得

架构

创新的三层存储架构
LightRAG采用独特的三层存储设计，让数据检索更加智能高效：

数据层
├──向量数据库(FAISS/Milvus)←语义相似度检索
├──知识图谱(Neo4j/NetworkX)←实体关系推理
└──缓存层(Redis/JSON)←高速数据访问

向量检索层

技术：基于Transformer embedding的密集向量检索
优势：捕获语义相似性，理解用户真正意图
应用：苹果公司能匹配到库比蒂诺的科技巨头

KG层

技术：实体-关系-实体的结构化知识表示
优势：支持复杂推理，发现隐藏关联
应用：查询马云自动关联阿里巴巴→电商平台→淘宝

缓存加速层

技术：多级缓存策略，LRU算法优化
优势：热点数据毫秒访问，大幅提升响应速度
应用：常见问题无需重复计算，直接返回结果

多模查询引擎
LightRAG支持7种查询模式，覆盖不同应用场景：

模式	原理	适用场景	性能
Local	局部实体检索	精确事实查询	极快
Global	全局图谱遍历	宏观分析总结	较慢
Hybrid	混合多路检索	复杂推理查询	中等
Mix	智能模式选择	通用问答系统	均衡
Naive	纯向量检索	简单相似匹配	快速
Context	上下文感知	对话系统	中等
Bypass	直接LLM调用	开放域问答	很快

智能提取引擎
LightRAG的核心创新在于其智能的知识提取能力：

# 实体提取示例
输入文档: "阿里巴巴集团由马云于1999年在杭州创立"
提取结果:
实体: ["阿里巴巴集团", "马云", "杭州", "1999年"]
关系: [
	("马云", "创立", "阿里巴巴集团"),
	("阿里巴巴集团", "成立时间", "1999年"),
	("阿里巴巴集团", "创立地点", "杭州")
]

部署

git clone https://github.com/HKUDS/LightRAG.git
cd LightRAG
pip install -e .
export ZHIPUAI_API_KEY="your_api_key_here"
python -m lightrag.api.lightrag_server

访问：http://localhost:9621

企业版部署

# 启动数据库容器
docker run -d --name neo4j \
  -p 7474:7474 -p 7687:7687 \
  -e NEO4J_AUTH=neo4j/your_password \
  neo4j:latest
docker run -d --name redis \
  -p 6379:6379 \
  redis:latest
# 安装向量库
pip install faiss-cpu

配置文件

# config.enterprise.env
LLM_BINDING=zhipu
LLM_MODEL=glm-4-flashx
ZHIPUAI_API_KEY=your_api_key
# 存储配置
LIGHTRAG_VECTOR_STORAGE=FaissVectorDBStorage
LIGHTRAG_GRAPH_STORAGE=Neo4JStorage
LIGHTRAG_KV_STORAGE=RedisKVStorage
# 数据库连接
NEO4J_URI=bolt://localhost:7687
REDIS_URI=redis://localhost:6379/0

API使用

import requests
# 上传文档
with open("company_report.pdf", "rb") as f:
	response = requests.post(
		"http://localhost:9621/documents/upload",
		files={"file": f}
	)
print(f"✅ 上传状态: {response.json()['status']}")

LightRAG每次查询都遵循：

查询问题→关键词提取→上下文构建→LLM生成答案

但在关键词提取和上下文构建阶段，不同模式采用完全不同的策略。

RAG Anything

GitHub，8.2K Star，934 Fork。

AutoAgent

论文，GitHub，7.6K Star，1k Fork。

一个零代码的AI助手构建工具，支持智能网页搜索、数据分析和自动报告生成，提供用户模式、智能体编辑器和工作流编辑器三种使用模式，并内置自管理向量数据库以增强学习能力。

全自动、语言驱动的通用智能体系统。其核心组件包括智能体系统实用程序、由LLM驱动的可操作引擎、自管理文件系统和自博弈智能体定制模块。

在这里插入图片描述
选用LiteLLM作为标准化接口，实现与超过100种主流语言模型的无缝对接。这种设计就像一个通用翻译器，确保系统能够与各类AI模型顺畅交互。同时，LLM Engine采用连续记忆机制，将历史行动和观察结果作为决策依据，不断优化判断能力。

双模式工具调用机制：

面向原生支持工具调用的商业模型的「直接调用模式」；
通过将工具调用转换为结构化XML代码生成任务的「转换调用模式」，让更多开源模型也能融入系统生态。

这种灵活设计既保障系统效能，又为用户提供更广泛的模型选择空间。

Self-Play Agent定制
智能定制系统是一个创新型自编程框架，让用户能够轻松构建场景化的AI助手和多Agent系统。它就像一位经验丰富的系统架构师，能够将用户的构想精准转化为实际应用，而整个过程简单直观。

系统提供两种灵活的定制模式：简洁高效的「直接创建模式」和深度定制的「工作流创建模式」。

在直接创建模式中，即使是技术小白也能轻松打造专业级多Agent系统。例如，当用户需要一个投资组合管理助手时，只需提供基本需求描述，系统就能自动完成创建。这个过程分为三个核心步骤：需求分析与资源评估、Agent架构规划、XML规范文件生成。

为增强系统能力，团队开发智能工具编辑器，实现与LangChain、RapidAPI和HuggingFace等主流平台的无缝集成。目前已支持8大类共145个API接口和9类模型库。编辑器不仅能自动生成工具代码，还会进行严格的测试验证，确保工具可靠运行。

在多Agent协作场景中，系统会自动部署智能调度员（Orchestrator Agent）统筹各专业Agent的工作，如同一位富有经验的项目经理，确保团队协作流畅性。

工作流创建模式则为专业用户提供更深度的定制能力。通过创新的事件驱动机制，实现Agent间更灵活的协作模式。整个工作流由工作流表单Agent（负责需求分析和逻辑设计）和工作流编辑Agent（负责实现和执行）协同完成，既保证了强大功能，又兼具极高灵活性。

DeepCode

GitHub，7.5K Star，1.1K Fork。

AI-Researcher

论文，GitHub，3.3K Star，362 Fork。在线体验地址。
在这里插入图片描述
如上图，4种科研场景，支持上传PDF文档。

开源的科研智能体框架，它能从文献搜集一路包办至论文撰写，彻底改变科研方式，让科研自动化触手可及。全自动科学发现平台，旨在通过尖端的AI智能体重新定义传统的研究范式。提供从概念到发表的全流程自动化，支持用户在详细描述研究想法或提供参考文献的基础上生成和实施创新的研究概念。核心功能包括文献综述、想法生成、算法设计与实现、算法验证与优化、结果分析以及自动生成学术论文。

架构
在这里插入图片描述
AI-Researcher通过先进的资源收集系统自动从arXiv、IEEE Xplore和ACM等权威学术数据库获取相关文献，并从GitHub和Hugging Face等开发平台收集高质量代码实例。系统集成智能评估机制，精确筛选文献质量与代码可用性，确保仅将最具价值的资源纳入深度分析流程。使研究人员能够快速把握领域前沿动态，精准识别关键技术突破点和研究空白区域，为创新研究提供知识背景。

在深入掌握现有研究成果的基础上，AI-Researcher的创意生成器精确分析技术瓶颈并系统性探索突破路径。根据研究需求，系统提供两种智能工作模式：

Level 1任务：基于用户提供的详细研究方向进行深度开发与创新延伸
Level 2任务：仅依托参考文献自主构建前沿研究思路，实现原创性突破

系统采用多维度创意生成框架，首先通过启发式算法产生多元化研究方向集合，随后基于创新突破性、技术实现可行性和潜在学术影响力等关键指标进行综合评估，最终锁定最具发展前景的研究路径，为用户提供精准的创新指引。

在算法设计与验证阶段采用系统化、循序渐进的方法论框架，包括：

设计规划：精确制定实现策略和技术路线图，深度评估方案的理论创新性与工程可行性，确保研究方向价值最大化
代码开发：将抽象算法概念转化为高效可执行代码，构建完整测试环境与评估框架，确保实现的鲁棒性
严谨验证：执行全面多维度测试，通过定量与定性相结合的方式评估算法性能，收集并分析关键性能指标
迭代优化：基于实验结果进行数据驱动的算法改进，针对性解决瓶颈问题，持续提升系统性能

这种自动化的实验验证闭环确保研究成果具备高度可靠性和可重现性，显著提升科研效率并加速从概念到实用技术的转化过程。

‍
构建精密的综合评估框架，从五个关键维度进行深度质量评估：

创新突破性：评估原创贡献度、技术突破点和学术影响力
实验严谨性：分析实验设计科学性、评估指标完整性和结果可重现性
理论基础深度：考察数学严谨性、推导完整性和与现有知识体系的衔接
结果分析洞察力：评估数据解读深度、比较分析能力和异常现象解释合理性
学术写作专业度：审视结构完整性、论证逻辑和专业表达准确性

这种多维度评估机制为研究人员提供全面质量反馈，也驱动AI-Researcher系统自身持续优化/进化。

开发全面的基准测试套件，用于客观衡量AI-Reseacher的研究能力：

采用人类专家论文作为评判标准
当前覆盖计算机视觉、自然语言处理、数据挖掘和信息检索四大领域
完全开源的评测体系，包括数据集和评估代码
分级评估机制，适应不同研究阶段的需求

这套透明、客观的评测体系不仅确保系统性能的可信度，还为整个AI赋能科学发现的探索提供重要参考。

MiniRAG

论文，GitHub，1.5K Star，197 Fork。一个极简的检索增强生成框架，它通过异质图索引和轻量级的拓扑增强检索，让小模型也能取得很好的RAG效果。
在这里插入图片描述
之前已研发并开源过LightRAG的团队，推出MiniRAG的目的：构建一个简化的、高性能的、适用于资源有限的端侧RAG模型。

核心要点：

提升端侧小模型RAG性能
利用轻量级GraphRAG提升性能
小模型不擅长总结理解，但可以进行信息抽取

效果：在存储空间仅为LLM 25%情况下，仍能实现相当性能。

主要设计思路基于对小型语言模型(SLM)的三个关键发现：

虽然在复杂语义理解上存在局限，但在模式匹配和局部文本处理方面表现优异
通过引入显式结构信息，可有效弥补有限的语义理解能力
将复杂RAG任务分解为简单明确的子任务，可在不依赖高级推理能力的情况下保持系统稳定性

核心原理：

一种语义感知的异构图索引机制，将文本块和命名实体结合在一个统一结构中，减少对复杂语义理解的依赖；
一种轻量级的拓扑增强检索方法，利用图结构实现高效的知识发现，而无需高级语言能力。

语义感知异构图索引：通过系统性地整合文本块和命名实体，构建一个富有层次的语义网络，实现高效精准的信息检索。

实体节点：包含从文本中提取的重要语义元素，例如事件、地点、时间以及特定领域的相关概念。
文本块节点：用于保留原始文本的完整上下文信息，确保文本的连贯性。

构建过程：

文本预处理：对文本进行分句和分词处理。
实体识别：利用预训练的命名实体识别（NER）模型识别文本中的命名实体。
图构建：将文本片段和命名实体作为节点，根据共现关系构建边，形成异构图。节点包含文本特征和实体特征，边表示节点间的语义关联。

优势：通过将文本片段和命名实体整合到图结构中，能够更有效地捕捉文本的语义信息，减少对复杂语义理解的依赖，降低索引复杂度。通过这种双层节点结构，文本块可在检索过程中直接参与匹配，显著提高检索结果的相关性和准确性。巧妙地弥补SLM在文本摘要能力上的不足，尽可能地减少信息失真。

轻量级知识检索
检索方式：包含2个核心设计，结合语义感知异构图和轻量级文本嵌入，实现高效精准的知识获取。

查询语义映射：通过简化的查询解析流程，将用户查询高效映射到图索引结构中
实体抽取（问题分解等方法小模型性能较差，所以不采用）
根据相似度匹配：实体-实体，实体-文本块，问题-实体
拓扑增强检索：采用两阶段检索策略
- 一阶段：基于嵌入相似度确定初始种子实体，计算相关节点周围的节点，挑选k步以内的连接点，按照重要性公式挑选top-k节点
- 二阶段：再利用异构图的拓扑结构，沿着相关推理路径发现更多相关信息。

优势：利用图结构的拓扑信息，能够更高效地发现与查询相关的信息，即使在SLMs语义理解能力有限的情况下，也能通过图结构的关联关系找到有价值的答案，提高检索的准确性和效率。

LiHua-World

README，一个专门为本地RAG场景设计的数据集，包含一个名为LiHua的虚拟用户一年内的聊天记录。包含三种类型的问题：单跳、多跳和总结性问题，每个问题都配有人工标注的答案和支持文档。

Vimo/VideoRAG

论文，GitHub，1.5K Star，197 Fork。

官方宣言：Chat with Your Videos，一款革命性的桌面应用程序，可让您使用尖端的AI技术与视频聊天。可以理解和分析任何长度的视频，从短片到数百小时的内容，并以惊人的准确性回答您的问题。

Auto-Deep-Research

论文，GitHub，1.1K Star，151 Fork。

基于AutoAgent开发，采用模块化的多Agent架构设计，由三个专业子Agent和一个核心调度器（Orchestrator Agent）组成：

Web Agent：专注于互联网信息的无障碍访问和深度搜索；
Coding Agent：负责编程实现和调试，具备严密的逻辑分析能力；
Local File Agent：致力于多格式文件的解析和内容理解

Web Agent整合一套完整的网络工具集，能够高效执行从基础搜索到文件下载的各类网络任务。将日常网页浏览行为抽象为10个高级工具，包括点击(click)、网页搜索(web_search)、访问网址(visit_url)等核心功能，覆盖网页搜索、页面导航、内容浏览和文件下载等常见操作场景。

Web Agent基于BrowserGym框架，通过将底层浏览器操作封装为高级工具集，不仅提升操作灵活性，也为功能扩展提供良好基础。模块化设计确保Web Agent能够从容应对各类网络任务需求。

Coding Agent是一个全能型智能编程助手，能够熟练处理数据分析、机器学习到系统管理等各类编程任务，无论是复杂计算还是自动化操作，都能高效完成。Coding Agent配备11个专业工具，涵盖代码脚本创建、Python代码执行、特定命令实现以及目录管理等核心功能。这套完整的工具体系使其能够从容应对各类编程需求。

在系统架构上，Coding Agent采用Docker沙箱环境确保代码执行安全，并支持与E2B等第三方沙箱系统无缝集成。同时，其交互式终端环境设计让代码执行过程和结果一目了然，大大提升了操作体验。

Local File Agent是一个全能型文件管理专家，它能够统一处理和分析各类本地文件，让复杂的文件处理工作变得简单高效。

Local File Agent最突出的优势在于其强大的文件兼容性。它可以处理几乎所有常见格式，包括文档类（doc、pdf、txt、ppt）、多媒体类（mp4、mov、wav、mp3）以及数据类（csv、xlsx）等多模态文件。通过将不同格式统一转换为Markdown，实现了高效的文件分析和处理。

在用户体验方面，Local File Agent采用交互式Markdown浏览器环境，即使面对超长文本或复杂文件，也能通过分页显示实现清晰呈现，使文件处理过程更加流畅直观。

工作流程清晰明确：Orchestrator Agent接收任务后，将其分解为多个子任务并分派给专业Agent。各Agent完成子任务后，结果返回给调度器进行评估，随后动态调整并分配新的子任务，循环往复直至完成整体目标。