
大模型平台
文章平均质量分 77
亲持红叶
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
如何理解推理模型
文章摘要:理解推理型大语言模型 本文探讨了如何构建和改进推理型大语言模型(LLM)。作者将"推理"定义为需要多步骤思考的复杂任务(如数学证明、编程挑战),区别于简单的事实问答。文章重点介绍了四种增强LLM推理能力的方法:1)推理时扩展(如思维链提示);2)纯强化学习训练(如DeepSeek R1的"冷启动"方法);3)监督微调与强化学习结合;4)知识蒸馏技术。同时指出推理模型的局限性——它们成本更高、响应更冗长,且可能因"过度思考"导致错误。文章以原创 2025-08-01 23:50:38 · 867 阅读 · 0 评论 -
kimi-k2-api使用示例
Kimi K2** 是月之暗面(Moonshot AI)于2025年7月11日发布并开源的万亿参数 MoE(混合专家模型)架构基础模型,总参数1T,激活参数32B,上下文长度128K,专为“智能体”任务优化,具备超强代码能力和通用Agent任务能力。注册赠送10元账户余额和50W tokens,这个余额可以使用GPU机器,一台4090大概能用5小时,也可以使用大模型的api,50Wtokens个人也可以使用很久。控制台–>模型API服务–>文本对话–>选择刚刚创建的api-key–>选择模型。原创 2025-07-16 17:27:05 · 3277 阅读 · 0 评论 -
大模型下载的通用方法
介绍两种下载HuggingFace模型的方法:通过HuggingFace官方工具和ModelScope平台。对于HuggingFace下载,提供了Python代码(使用snapshot_download)和命令行(huggingface-cli)两种方式,并建议使用国内镜像站加速下载。对于ModelScope下载,同样展示了代码(snapshot_download)和命令行(modelscope download)两种方法。两种平台都支持指定本地存储路径,并提供了下载示例截图。原创 2025-07-11 15:29:42 · 591 阅读 · 0 评论 -
优云智算大模型api使用
控制台–>模型API服务 --> API KEY --> 创建API KEY。控制台–>模型API服务–>模型体验–>选择模型。可以点击API-KEY下面的复制按键进行复制。填写API-KEY名称–> 创建并复制。成功后即可看见刚刚新建的API-KEY。访问官网,选择手机号或者邮箱注册。模型广场查看所有可用模型。原创 2025-06-12 16:30:37 · 1017 阅读 · 0 评论 -
单卡4090部署Qwen3-32B-AWQ(4bit量化)-vllm
在单卡NVIDIA 4090 GPU上部署4bit量化的Qwen3-32B-AWQ模型,使用vllm推理框架。原创 2025-05-30 22:58:48 · 2553 阅读 · 5 评论 -
优云智算-GPU实例使用指南
优云智算GPU实例使用指南摘要 优云智算是一个高效便捷的GPU算力平台,适合深度学习训练和科学计算。相比AutoDL等平台,其优势包括:更易获取的GPU资源、直接分配公网IP、支持无卡开机模式降低费用、灵活按天/小时/月计费。原创 2025-05-29 14:47:29 · 2260 阅读 · 0 评论 -
GPU平台-优云智算
AutoDL和蓝耘的卡有时候太难等了,推荐个好用的GPU机器,用法和AutoDL和蓝耘差不多,直接给的是公网ip,开端口类似阿里云有无卡开机模式下面这个是我的注册码,第一次注册填写后会送10的券注册后到控制台点击部署实例可以选择社区镜像或者平台镜像,这里以平台镜像为例子,右边选择GPU型号,以及显卡数量,其他的可以默认,如果有需要可以挂在数据盘更多配置中可以开防火墙,选择cpu平台,以及指定实例名称确认好后点击立即部署,等待部署完成。原创 2025-05-03 17:48:07 · 534 阅读 · 0 评论 -
Qwen3-30B-A3B部署(使用vllm和sglang)
vllm并发数为40时达到性能峰值(每秒输出tokens为924.52)当并发数增加到50时,性能略有下降(每秒输出tokens为917.30,下降约0.8%)平均用时从40并发的45.43秒增加到50并发的55.64秒,增加了22.5%:sglang在测试范围内(1-50并发),性能上升趋势,50并发时每秒输出tokens达到1014.74,比40并发的1002.87略提升(约1.2%),平均用时从40并发的41.82秒增加到50并发的50.43秒,增加20.6%若需确定其极限,可以进行更高并发数的测试。原创 2025-05-01 23:55:42 · 5519 阅读 · 4 评论 -
蓝耘算力云使用(类似AutoDL)
蓝耘算力云平台和AutoDL的使用非常类似,可以说几乎是一模一样下面这个是我的注册码,第一次注册填写后会送20的券创建GPU实例注册完成后进入容器云市场创建自行选择是否扩容数据盘(免费50G),选择镜像后点击立即购买立即购买后,会出现以下提示,点击确定 点击确定后等待开机,当开机状态为运行中,则可以连接了,这里我之前已经有实例了,就不新开了。原创 2025-04-27 14:23:54 · 959 阅读 · 0 评论 -
vllm部署QwQ32B(Q4_K_M)
Ollama是一个轻量级的开源LLM推理框架,注重简单易用和本地部署,而VLLM是一个专注于高效推理的开源大型语言模型推理引擎,适合开发者在实际应用中集成和使用。两者的主要区别在于Ollama更注重为用户提供多种模型选择和易用性,而VLLM更注重模型推理性能的优化。所以VLLM更适合企业级的高并发需求。vllm的github地址QwQ32B硬件要求Q4_K_M量化,大概需要22G左右够用,一张3090或者4090即可,魔改2080ti 的 22G 显存差不多够用。原创 2025-03-17 23:31:01 · 3035 阅读 · 2 评论 -
基于llama.cpp的QwQ32B模型推理
llama.cpp项目主页:llama.cpp源码下载。原创 2025-03-17 22:17:45 · 1546 阅读 · 0 评论 -
ModelScope推理QwQ32B
ModelScope 命令行工具的下载命令,用于从 ModelScope 平台下载指定的模型。指定源安装,保存为 requirement.txt 安装(这里用的中科大的源)参数指定要下载的模型的唯一标识符(Model ID)。查看下满精度的显存使用量,可以看到用了63.7G左右。是目标目录路径,表示模型将被下载到这个目录中。这里使用满精度的QwQ32B,需要64G显存。参数指定模型下载后存放的本地目录路径。当前文件夹,请自行替换自己的文件夹。需要安装的 python 包。可以看到模型文件都下载下来了。原创 2025-03-17 00:02:05 · 1232 阅读 · 0 评论 -
ollama注册自定义模型(GGUF格式)
需要全程开启ollama需要注意,尽管手动下载的GGUF格式模型权重是阿里官方发布的模型权重,但仍然会偶尔出现和ollama不兼容,导致胡言乱语的情况出现。如果希望使用ollama进行推理,优先建议使用ollama pull命令下载ollama官方的GGUF格式。以下是用阿里自己开源的qwq32b-GGUF格式来演示。原创 2025-03-16 20:52:24 · 823 阅读 · 0 评论 -
Modelscope命令行下载开源大模型
ModelScope 命令行工具的下载命令,用于从 ModelScope 平台下载指定的模型。执行下载模型的命令,以下载 qwen2.5-0.5b 为例。参数指定要下载的模型的唯一标识符(Model ID)。是目标目录路径,表示模型将被下载到这个目录中。参数指定模型下载后存放的本地目录路径。安装 modelscope。原创 2025-03-15 16:29:30 · 4014 阅读 · 0 评论 -
Huggingface命令行下载开源大模型
填入以下两个,以修改HuggingFace 的镜像源 、模型保存的默认。执行下载模型的命令,以下载 deepseekr1-1.5b为例。安装 HuggingFace 官方下载工具。重新加载,查看环境变量是否生效。原创 2025-03-15 16:28:12 · 499 阅读 · 0 评论 -
ollama API 本地调用
前提条件,ollama 已经启动了模型,查看 ollama 中的 model 名称。使用 openai 调用。原创 2025-03-14 23:09:28 · 1012 阅读 · 0 评论 -
消费级显卡上ollama部署QwQ32B
QwQ32B硬件要求魔改2080ti 的 22G 显存差不多够用ollama中的是Q4_K_M量化模型。原创 2025-03-14 22:21:43 · 1550 阅读 · 0 评论 -
RagFlow+Deepseek构建个人知识库
注意,ragflow 镜像有多个不同的大小,默认的是v0.17.2-slim,区别如下,主要是包不包含embedding模型的区别,我选的默认的,因为占用小,并且我后续使用调用api的方式去配置embedding模型,所以就选,默认的。我们可以看到已经引用到上传的pdf了,点击引用的标识,可以看到引用的内容出自哪里。查看模型填入的名称,如果是直接下载的软件包安装的,打开终端输入以下命令查看。这里直接调用硅基流动的api,下面的博客有注册的方法。这个NAME下面的就是需要输入的名称。原创 2025-03-13 23:14:22 · 1661 阅读 · 0 评论 -
windows上清理docker
docker_data.vhdx文件,Docker在Windows系统上使用WSL2(Windows Subsystem for Linux 2)时创建的虚拟磁盘文件,用于存储Docker容器和镜像等数据。C:\Users<用户名>\AppData\Local\Docker\wsl\distributions\docker-desktop-data。C:\Users\孟智超\AppData\Local\Docker\wsl\disk\docker_data.vhdx。在命令行界面,输入以下命令。原创 2025-03-12 22:24:13 · 1938 阅读 · 3 评论 -
Ollama本地部署deepseek-r1蒸馏版
在这个里面可以看到所有支持的模型,比如搜索deepseek-r1, 如下图,最后一个箭头就是在ollama中运行deepseekr1-1.5b的命令。在本地可以使用chatbox,或者openwebui,或者cherrystudio等等接入ollama的模型,下面以cherrystudio为例子示范一下。是 Ollama 的官方镜像,从 Docker Hub 拉取,就是我们刚刚拉取的。: Docker 的核心命令,用于创建并启动一个新的容器。: 端口映射,将容器内的端口映射到宿主机的端口。原创 2025-03-12 22:21:29 · 955 阅读 · 0 评论 -
SiliconFlow硅基流动微调大模型
所以需要先对数据进行处理。复制模型的名称测试下连接。对比一下微调前后的数据。存储后的数据是这样的。注意下面的是最终模型。原创 2025-03-09 23:21:37 · 1842 阅读 · 12 评论 -
畅聊deepseek-r1,SiliconFlow 硅基流动注册+使用
注册流程切换中文邀请码:XcgtUixn。原创 2025-02-10 21:16:19 · 8744 阅读 · 0 评论