芯片架构:x86 arm mips alpha sparc power risc-v
国产处理器:飞腾 鲲鹏 申威 龙芯 海光 兆芯
人工智能硬件厂商:
**昇腾、*昆仑芯、*平头哥、**寒武纪、*地平线、**瑞芯微、*摩尔线程、**燧原
曙光、浪潮、登临、瀚博、壁仞、沐曦集成电路、天数智芯、海飞科
国外:英伟达CUDA、AMD ROCm、谷歌TPU
技术生态:
TensorFlow-TPU、Pytorch、MXNet、OneAPI/OpenVino、ROCm、CUDA、CNTK、CoreML、MaliGPU、Adreno
MindSpore-NPU、PaddlePaddle-XPU、MNN、NCNN/TNN、MLU、BPU、
MegEngine、oneflow、OpenMMLab、Tengine、MACE
# 环境
910A设备:【tf-1.15 tf-2.6.5 pt-1.11 pt-2.1 ms2.2.14-mf1.0.2 paddle-2.6.1】
910B设备:【tf-1.15 tf-2.6.5 pt-1.11 pt-2.1 ms2.3.0rc2-mf1.1.0 paddle-3.0.0b1 modellink-8.0.rc1 mindie-1.0.rc1】
310p设备:【tf-cpu pt-cpu om*310p vision mindie1.0.rc2 】 paddleLite/Inference*310p/910a/910b
# 大模型推理
推理加速:
1、TensorRT-llm、triton
组装优化大语言模型推理解决方案的工具,提供Python API 来定义大模型,并为 NVIDIA GPU 编译高效的 TensorRT 引擎.
TensorRT-LLM: NVIDIA开发的高性能 GPU 加速推理方案,在TensorRT推理引擎基础上,针对Transformer类大模型推理优化的框架。
https://github.com/NVIDIA/TensorRT-LLM/tree/main
2、*Text generation inference[2]:依赖HuggingFace模型,并且不需要为核心模型增加多个adapter的场景;
是Hugging Face主导的开源推理框架,旨在为自然语言生成模型如GPT、OPT等提供高性能推理。
https://github.com/huggingface/text-generation-inference
3、*vLLM[1]:适用于大批量Prompt输入,并对推理速度要求高的场景;快速简单易用的大模型推理框架和服务,来自加州大学伯克利分校
由Nvidia开源,旨在降低大模型推理的显存占用。其核心思想是将模型的一部分保存在CPU内存或硬盘上,只将当前计算所需的部分加载到GPU显存中,从而打破GPU显存限制。
https://github.com/vllm-project/vllm
4、**mindie:atb/rt/llm/torch/service
5、OpenLLM[4]:为核心模型添加adapter并使用HuggingFace Agents,尤其是不完全依赖PyTorch;
https://github.com/bentoml/OpenLLM
6、*DeepSpeed-MII[7]:使用DeepSpeed库来部署LLM;
https://github.com/microsoft/DeepSpeed-MII
7、*flash-attention
FlashAttention 是一种重新排序注意力计算的算法,它利用平铺、重计算等经典技术来显著提升计算速度。
code地址:https://github.com/Dao-AILab/flash-attention
8、fastllm: 全平台加速推理方案,单GPU批量推理每秒可达10000+token,手机端最低3G内存实时运行(骁龙865上约4~5 token/s)
https://github.com/ztxz16/fastllm/
9、*llama.cpp:是基于 Meta 释出的 LLaMA 模型(简易 Python 代码示例)手撸的纯 C/C++ 版本,用于模型推理。
https://github.com/ggerganov/llama.cpp
10、*chatglm.cpp: 类似 llama.cpp 的量化加速推理方案,实现笔记本上实时对话
https://github.com/li-plus/chatglm.cpp
11、OpenVINO: Intel 开发的高性能 CPU 和 GPU 加速推理方案,
https://github.com/openvinotoolkit
12、CTranslate2[3]:可在CPU上进行推理;
13、FasterTransformer
是一个用于实现基于Transformer的神经网络推理的加速引擎。它包含Transformer块的高度优化版本的实现,其中包含编码器和解码器部分。
使用此模块,您可以运行编码器-解码架构模型(如: T5)、仅编码架构模型(如: BERT)和仅解码架构模型 (如: GPT) 的推理。
FT框架是用C++/CUDA编写的,依赖于高度优化的 cuBLAS、cuBLASLt 和 cuSPARSELt 库,这使您可以在 GPU 上进行快速的 Transformer 推理。
https://github.com/NVIDIA/FasterTransformer
14、*LLaMA-Factory: 优秀易上手的高效微调框架。
https://github.com/hiyouga/LLaMA-Factory
15、Ray Serve[5]:稳定的Pipeline和灵活的部署,它最适合更成熟的项目;
16、MLC LLM[6]:可在客户端(边缘计算)(例如,在Android或iPhone平台上)本地部署LLM;陈天奇(tvm发起者)团队开发.
https://github.com/mlc-ai/mlc-llm
17、FlexFlow Server
FlexFlow Serve 是一个开源编译器和分布式系统,用于低延迟、高性能 LLM 服务。
https://github.com/flexflow/FlexFlow/tree/inference
18、LMDeploy
LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发,是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。
https://github.com/InternLM/lmdeploy
工具链/知识库:
1、*LangChain-Chatchat: 基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型知识库项目。
https://github.com/chatchat-space/Langchain-Chatchat
2、BISHENG: 开源大模型应用开发平台,赋能和加速大模型应用开发落地,帮助用户以最佳体验进入下一代应用开发模式。
https://github.com/dataelement/bisheng
3、Chuanhu Chat: 为各个大语言模型和在线模型API提供美观易用、功能丰富、快速部署的用户界面,支持ChatGLM2-6B。
https://github.com/GaiZhenbiao/ChuanhuChatGPT
4、MaxKB
https://maxkb.cn/
5、*Ollama+AnythingLLM
https://ollama.com https://github.com/ollama/ollama
https://anythingllm.com/ https://github.com/Mintplex-Labs/anything-llm 知识库管理 Embedings + Vector Database : AnythingLLM
https://github.com/open-webui/open-webui
6、*Dify
Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和 LLMOps 的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。
https://dify.ai/zh
7、*FastGPT + oneapi
https://github.com/labring/FastGPT https://fastgpt.in/
https://doc.fastgpt.in/docs/intro/
FastGPT 是一个由用户和贡献者参与推动的开源项目,FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景!
8、*RAGFlow
https://ragflow.io/
9、*DB-GPT
https://github.com/eosphoros-ai/DB-GPT
10、FastChat
https://github.com/lm-sys/FastChat
FastChat是一个用于训练、部署和评估基于大型语言模型的聊天机器人的开放平台。它提供了最先进模型的权重、训练代码和评估代码,支持多模型服务和兼容OpenAI的API,旨在为用户提供优质的聊天体验。
11、 QAnything
项目地址: https://github.com/netease-youdao/QAnything
简介:QAnything ( Q uestion based on Anything ) 是贡献支持任何格式文件或数据库的本地知识库问答系统,可断网安装使用。您的任何格式的本地文件都可以往里扔,即可获得准确、快速、靠谱的问答体验。
前端页面: Open WebUI / Streamlit / Gradio
1、*基于 Gradio 的网页版 demo:https://gradio.app/
2、*基于 Streamlit 的网页版 demo:
https://github.com/streamlit/streamlit
3、Open WebUI
https://github.com/open-webui/open-webui
环境:Win 10/11 + WSL2 + Linux
方案一:LLMs + Mindie/vLLM/TGI + gradio/Streamlit 做一个简单本地问答系统
方案二:LLMs + Mindie/Mindform + LangChain +Faiss + Gradio前端,做一个本地知识文档系统
方案三:LLMs + FastChat + fastapi
方案四:Ollama + AnythingLLM + Open WebUI/Streamlit/Gradio(可选)
方案五:
方案六:
Graph和多智能体:
LangChain-Chatchat (原 Langchain-ChatGLM)
https://github.com/langchain-ai/langchain
https://github.com/chatchat-space/Langchain-Chatchat
https://github.com/xorbitsai/inference
FlastAPI:https://github.com/fastapi/fastapi
FlashRAG:https://github.com/RUC-NLPIR/FlashRAG
LazyLLM:是一款低代码构建多Agent大模型应用的开发工具
https://github.com/LazyAGI/LazyLLM
agentUniverse:基于大型语言模型的多智能体框架
https://github.com/alipay/agentUniverse
https://agentuniverse.readthedocs.io/en/latest/
RichRAG:旨在解决大型语言模型在处理具有多个子意图的宽泛查询时的局限性。
论文:https://arxiv.org/pdf/2405.16635
代码:未开源
Autogen_GraphRAG_Ollama:GraphRAG + AutoGen + Ollama + Chainlit UI=多智能体RAG超级机器人
https://github.com/karthik-codex/Autogen_GraphRAG_Ollama
Streamer-Sales:一个集成Agent、RAG、数字人、ASR、TTS的卖货主播大模型
https://github.com/PeterH0323/Streamer-Sales
https://github.com/PeterH0323/Streamer-Sales
*GraphRAG:https://github.com/microsoft/graphrag
LangChain:https://github.com/langchain-ai/langchain
*LlamaIndex:https://github.com/run-llama/llama_index
Neo4j:https://neo4j.com/
Camel:项目地址:https://gitcode.com/gh_mirrors/came/camel