50K star!构建离线的私有GPT,隐私不再泄露

随着越来越多的人使用ChatGPT等AI产品,用户的数据隐私泄露也越来越被重视。

今天我们介绍一个开源项目,它让用户可以在离线的情况下,使用大模型的能力来查询本地文档,不再担心隐私数据泄露,它就是:PrivateGPT

PrivateGPT 是什么

PrivateGPT 是一个可立即投入生产的 AI 项目,即使在没有 Internet 连接的情况下,您也可以使用大型语言模型 (LLM) 的功能来询问有关文档的问题。 100% 私有,任何数据都不会离开您的执行环境。

PrivateGPT 是一项服务,它将一组 AI RAG 原语包装在一组全面的 API 中,提供私有、安全、可定制且易于使用的 GenAI 开发框架。它支持各种本地和远程的 LLM 提供商、嵌入提供商和向量存储。这些可以轻松更改,而无需更改代码库。

整体架构

它使用FastAPI和LLamaIndex作为其核心框架。这些可以通过更改代码库本身来定制。

该项目提供了一个 API,提供构建私有的、上下文感知的 AI 应用程序所需的所有原语。它遵循并扩展了OpenAI API 标准,支持普通响应和流式响应。API 分为两个逻辑块:

高级 API,抽象了 RAG(检索增强生成)管道实现的所有复杂性:

  • 文档提取:内部管理文档解析、分割、元数据提取、嵌入生成和存储。
  • 使用所提取文档中的上下文进行聊天和完成:抽象上下文检索、提示工程和响应生成。

低级 API,允许高级用户实现自己的复杂管道:

  • 嵌入生成:基于一段文本。
  • 上下文块检索:给定查询,从提取的文档中返回最相关的文本块。

除此之外,还提供了一个可用的Gradio UI 客户端来测试 API,以及一组有用的工具,例如批量模型下载脚本、提取脚本、文档文件夹监视等。

安装PrivateGPT

开始安装前需要确认一些基础的环境情况:

Python =>3.11 
make 
poetry 

对于快速安装可以参考以下的步骤:

# Clone the repo
git clone <https://github.com/imartinez/privateGPT>
cd privateGPT

# Install Python 3.11
pyenv install 3.11
pyenv local 3.11

# Install dependencies
poetry install --with ui,local

# Download Embedding and LLM models
poetry run python scripts/setup

# (Optional) For Mac with Metal GPU, enable it. Check Installation and Settings section 
to know how to enable GPU on other platforms
CMAKE_ARGS="-DLLAMA_METAL=on" pip install --force-reinstall --no-cache-dir llama-cpp-python

# Run the local server  
PGPT_PROFILES=local make run

# Note: on Mac with Metal you should see a ggml_metal_add_buffer log, stating GPU is 
being used

# Navigate to the UI and try it out! 
<http://localhost:8001/>

为了获得最佳性能,建议使用 GPU 加速。 PrivateGPT 支持与_llama.cpp_兼容的模型的本地执行。提供了两种运行良好的已知模型来实现无缝设置:

1.TheBloke/Llama-2–7B-chat-GGUF

2.TheBloke/Mistral-7B-Instruct-v0.1-GGUF

使用PrivateGPT

安全完成后可以到 [http://localhost:8001/] 访问web服务。

它有3种执行模式(可以在左上角选择):

  • 查询文档:使用提取文档中的上下文来回答聊天中发布的问题。它还将之前的聊天消息作为上下文考虑。
  • 在文档中搜索:快速搜索,返回 4 个最相关的文本块及其源文档和页面。
  • LLM 聊天:与 LLM 进行简单、非上下文的聊天。不会考虑提取的文档,只会考虑之前的消息。

总结

PrivateGPT 的思路和方向和目前很多国内的研究一致,大家都是在探索一种及使用大模型能力,同时又保障足够的数据隐私安全,并且这种引入向量存储的方法一定程度上可以提升相应的准确度的速度(在特定的问题场景下)。

个人觉得这个项目更多的可以给我们延伸的思考,当然直接拿来用也不错。

项目信息

  • 项目名称:private-gpt
  • GitHub 链接:[github.com/zylon-ai/pr…]
  • Star 数:50K+

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

  • 12
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值