常用推理框架介绍

javastart

已于 2024-04-20 22:53:10 修改

阅读量1.1k

点赞数 15

分类专栏：大模型 aigc 文章标签： AIGC transformer chatgpt 性能优化

于 2024-04-20 22:00:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/javastart/article/details/138013090

版权

大模型同时被 2 个专栏收录

205 篇文章 44 订阅

订阅专栏

58 篇文章 0 订阅

订阅专栏

vLLM

GitHub链接：https://github.com/vLLM/vllm
优势：利用CPU的向量化指令集实现推理加速，适合在没有强大GPU资源的场景下使用。
选择建议：如果你主要使用CPU进行推理，或者希望在不依赖GPU的情况下获得较好的性能，vLLM是一个不错的选择。

fastLLM

GitHub链接：抱歉，目前无法提供fastLLM的GitHub链接，因为它可能是一个非公开项目或者是一个特定组织内部使用的工具。
优势：基于GPU加速，能够显著提升推理速度，适合处理大规模数据集和高性能需求的应用。
选择建议：如果你拥有支持CUDA的GPU，并且需要处理大量数据或追求高性能，请尝试寻找类似的GPU加速LLM推理工具。

TensorRT-LLM

GitHub链接：GitHub - NVIDIA/TensorRT-LLM: TensorRT-LLM provides users with an easy-to-use Python API to define Large Language Models (LLMs) and build TensorRT engines that contain state-of-the-art optimizations to perform inference efficiently on NVIDIA GPUs. TensorRT-LLM also contains components to create Python and C++ runtimes that execute those TensorRT engines.
优势：提供易于使用的Python API，类似PyTorch，同时支持分布式推理，可加速大规模模型的推理过程。
选择建议：如果你熟悉Python和PyTorch，并且需要处理分布式推理的场景，TensorRT-LLM是一个值得考虑的选择。

FasterTransformer

GitHub链接：GitHub - NVIDIA/FasterTransformer: Transformer related optimization, including BERT, GPT
优势：由NVIDIA开发，高度优化，支持多种Transformer模型，适用于需要极致性能的场景。
选择建议：如果你正在使用NVIDIA的GPU，并且追求极致的推理性能，FasterTransformer是一个值得尝试的工具。

LM Studio

链接：LM Studio - Discover, download, and run local LLMs。
优势：用户友好，支持多种开源大型语言模型，可以在本地计算机上轻松安装和使用。
选择建议：如果你希望在不依赖云服务的情况下轻松使用大型语言模型，并且希望保持数据的隐私性，请查找官方渠道以获取更多关于LM Studio的信息。

Ollama

GitHub链接：GitHub - ollama/ollama: Get up and running with Llama 3, Mistral, Gemma, and other large language models.
优势：支持多种大型语言模型，提供强大的框架来管理LLMs的推理过程，同时提供自定义和创建模型的功能。
选择建议：如果你需要管理多个大型语言模型，并且希望拥有更多自定义和扩展的能力，Ollama是一个值得考虑的选择。

Ollama web版本open-webui

GitHub链接：

GitHub - open-webui/open-webui: User-friendly WebUI for LLMs (Formerly Ollama WebUI)

请注意，由于工具和项目的更新和变化，GitHub链接可能会发生变化或不再可用。在访问链接时，请确保检查链接的有效性，并参考最新的官方文档和社区信息。此外，一些工具可能是私有或受限制的，因此可能无法直接访问其GitHub仓库。在这种情况下，你可以通过官方渠道或相关社区来获取更多信息和支持。

关注

15
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
常用推理框架介绍

请注意，由于工具和项目的更新和变化，GitHub链接可能会发生变化或不再可用。在访问链接时，请确保检查链接的有效性，并参考最新的官方文档和社区信息。此外，一些工具可能是私有或受限制的，因此可能无法直接访问其GitHub仓库。在这种情况下，你可以通过官方渠道或相关社区来获取更多信息和支持。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。