自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 GLM4 9B - 环境准备和 vllm 部署

这里是视频的笔记,完整的信息请观看视频。6 月 5 日,glm 团队开源了最新的大语言模型,glm4 9b。同时,这次还直接推出了对应的多模态模型,glm-4v-9b 支持 8k 的上下文。从测评结果来看,其综合水平全面超越了 llama3 8b 的模型。这里呢,我还是先记录下环境搭建和部署的流程。

2024-06-06 18:09:19 869

原创 Ollama 支持的 flash attention 能提升推理速度吗?我们一起测测看吧

Ollama 最近的更新支持了 flash attention,这里我简单介绍下它的作用、开启方式,并通过一个测试脚本在一个云 GPU 上测试开启 flash attention 与否对实际推理速度的影响。

2024-06-03 23:30:28 641

原创 ollama 支持并发之后和 vllm 相比性能如何?我们测测看

ollama 支持了并发之后其吞吐量有了不小的提升,不过这能打得过 vllm 吗?这里详细记录测试的环境搭建和脚本准备。

2024-05-20 22:34:47 1851 4

原创 大模型推理 A40 vs A6000 谁更强 - 对比 Yi-34B 的单、双卡推理性能

A40 和 A6000 从纸面数据来看基本是一模一样,但不知为啥 A40 在价格上就是比 A6000 要贵一点。这里我对比下两个卡进行大语言模型推理方面的性能差异。

2024-01-15 23:30:39 1422

原创 C-Eval 大语言模型测评 - lm evaluation harness + vllm 跑测评

C-Eval 是一个「知识评估基准」,参考国外的评测基准 MMLU 而来,发布于 2023 年 5 月 22 日和 MMLU 一样,C-Eval 都是客观题评测,所有都是单项选择题,每个题目 ABCD 四个选项,有唯一答案C-Eval 涵盖了 52 个不同学科,一共 13948 个题目,难度级别覆盖初中、高中、大学和职业考试52 个学科,每个学科拆分为三个数据集:dev、validation 和 test。

2024-01-10 23:41:03 3744 1

原创 Yi-34B 本地部署简单测试

用 LM Studio 直接把模型在本地跑起来,这里就是简单测试模型的速度和几个抽样问题的回答质量

2024-01-02 01:54:20 1816

原创 双卡 3080ti 部署 Yi-34B 大模型 - Gradio + vLLM 踩坑全记录

上次介绍了怎么用 vllm 去部署 Yi-34B 的 Int4 版本。这次尝试下 12G 显存的双卡部署,因为这个模型即使是 int4 的版本,也差不多需要至少 20G 的显存,所以如果是 12G 显存的话,也至少需要两块显卡。我这里尝试下用两个 3080Ti 跑起来这个模型。整个过程其实和上个视频的过程是类似的,本来觉得整个过程应该比较顺利,但最后发现还是踩了不少坑,这里我用这个视频把整个过程记录一下供大家参考。

2024-01-01 17:37:10 5817

原创 只需 24G 显存,用 vllm 跑起来 Yi-34B 中英双语大模型

上次介绍了用 vllm 去部署 mixtral 8x7b 的 GPTQ 量化版本,只是跑了一下 benchmark,这次玩一下 Yi-34b 这个模型的量化版本,看看怎么使用 vllm 直接暴露出来一个 API 服务。

2023-12-28 17:39:08 4944 11

原创 用 llama.cpp 跑通 mixtral MoE 模型

使用 llama.cpp 项目三分钟快速部署由 mistral.ai 最新开源的 Mixtral MoE 大语言模型

2023-12-23 14:42:52 852

原创 VLLM 测试 Mixtral MoE 的 GPTQ 量化版本

使用 vllm 跑起来 Mixtral MoE 的 GPTQ 量化版本

2023-12-23 13:44:22 1435

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除