阿里发布QwQ-32B-Preview模型,推理能力强劲;月之暗面Kimi与清华大学发布Mooncake开源项目

在这里插入图片描述

🦉 AI新闻

🚀 阿里发布QwQ-32B-Preview模型,推理能力强劲

摘要:阿里通义千问于11月28日发布实验性研究模型QwQ-32B-Preview,该模型在数学和编程领域展现出卓越的AI推理能力,能够与OpenAI的o1相媲美。QwQ-32B-Preview具备325亿个参数,可处理最长32000个tokens,并在多个基准测试中表现优异。然而,该模型也有局限性,如语言混合、推理循环等,建议用户在实际应用中谨慎使用。

🚀 月之暗面Kimi与清华大学发布Mooncake开源项目

摘要:月之暗面Kimi与清华大学MADSys实验室于2024年6月联合发布了Mooncake推理系统设计方案,提升了推理吞吐量。为加速技术推广,双方联合多家公司发布了以KVCache为中心的大模型推理架构的开源项目Mooncake。该项目通过超大规模KVCache缓存池,减少算力开销。Mooncake的目标是为大模型时代提供高性能内存语义存储的标准接口,并将逐步开源其高性能KVCache的实现。

🚀 腾讯混元大模型视频生成能力将上线

摘要:腾讯公关总监张军宣布,腾讯混元大模型将于12月3日正式上线视频生成能力。用户可在腾讯元宝 App 中申请试用,企业客户则可通过腾讯云接入API进行内测。同时,腾讯将开源该视频生成大模型,参数量为130亿。腾讯元宝App在本月中旬发布了2.0版本,新增AI应用专属板块,升级了对话列表并整合多种信息资源。腾讯混元 Turbo提供更高的推理效率和降低的成本。

🚀 月之暗面Kimi推出AI视频生成功能测试

摘要:月之暗面Kimi的AI视频生成功能“Kimi创作空间”目前正处于灰度测试阶段,未来将在线上平台发布。用户每日可免费生成100秒视频,支持个性化音乐和场景介绍。该功能提供12种预设风格模板及自定义创作,旨在制作个性化音乐视频。Kimi的创始人杨植麟强调,强化学习将是未来人工智能的重要方向,企业需聚焦关键业务以取得更大成功。

🚀 Anthropic为Claude聊天机器人推出自定义样式功能

摘要:AI模型企业Anthropic近日为其Claude聊天机器人推出“自定义样式”功能,用户可以根据具体场景调整文本生成风格。Claude现在提供“正式”、“简洁”和“解释性说明”三种预设样式,并允许用户上传自己的写作示例以进一步定制。GitLab极狐的AI技术产品主管表示,这一功能使得团队在多种场合下都能有效使用Claude,提升了文档撰写和项目管理的效率。

🚀 马斯克成立AI游戏工作室反对“觉醒”内容

摘要:马斯克因反对游戏中的“觉醒”内容而成立xAI新公司,旨在“让游戏再次伟大”。他批评游戏业已经变得过于关注多元化与包容性,尤其针对《刺客信条:影》和《宣誓》,认为这种方向会损害游戏质量。马斯克还指责微软招聘优先考虑黑人美工为非法行为,认为这样的做法会导致不合格员工的产生。

🚀 700亿参数昆仑大模型发布,提升能源行业智能化水平

摘要:11月28日,中国石油发布了与中国移动、华为、科大讯飞联合打造的700亿参数昆仑大模型。该模型在自然语言处理、视觉识别等方面比之前的330亿参数模型有显著提升,并构建了专业和场景大模型,增强在勘探、地震处理等领域的应用能力。项目自今年5月启动,3个月内即达到330亿参数,现已累计超过280TB的高质量数据集,推动能源行业智能化进程。

🚀 马斯克xAI估值上涨 投资者可获补偿

摘要:马斯克收购Twitter的投资者将从其人工智能公司xAI的估值飙升中受益。xAI计划完成50亿美元融资,估值已达500亿美元,这为面临未实现亏损的Twitter投资者提供了“全额补偿”机会。xAI致力于建设人工智能模型及超级计算机集群。马斯克在Twitter收购中获得了71亿美元资金,融资的快速增长对Twitter股东来说是个好消息,投资者包括富达投资、沙特王子等知名机构。

私人定制视频文本提取,字幕翻译制作等,QQ:1752338621

更多AI工具 Github-AiBard123

<think>嗯,用户想了解如何部署qwq-32b模型到VLLM平台上。首先,我需要回忆一下VLLM的基本知识。VLLM是一个高效推理和部署框架,支持大规模语言模型,特别是优化了自回归模型推理速度。那部署模型的一般步骤是什么呢?通常需要安装环境、下载模型、配置参数、启动服务。 接下来,用户提到的qwq-32b模型,我需要确认是否有相关的引用信息。查看用户提供的引用内容,引用[1]提到了模型下载的路径,引用[2]和[3]则涉及部署中的注意事项,比如量化版本和tokenizer的问题。特别是引用[3]提到需要修改tokenizer_config.json文件来解决输出问题,这可能是一个关键步骤。 首先,安装VLLM。用户可能需要安装最新版本,使用pip命令。然后,下载模型,根据引用[1]的路径,使用modelscope或者git lfs下载。需要注意模型文件的大小,引用[2]提到量化版本可能更适合消费级显卡,比如4bit的20G版本,这可能影响用户的选择。 然后配置环境,可能需要设置CUDA环境变量。启动服务时,使用vllm的命令行工具,指定模型路径、tensor并行数等参数。如果遇到不输出<think>的问题,引用[3]的解决方法是修改tokenizer配置文件,删除相关token,这需要用户找到对应的json文件进行调整。 还需要考虑硬件要求,比如GPU显存是否足够。如果用户使用消费级显卡,可能需要量化模型,如引用[2]提到的。此外,部署后如何测试服务,比如使用curl或Python客户端发送请求,验证是否正常工作。 可能用户遇到的问题包括模型路径错误、显存不足、tokenizer配置问题等,需要逐一排查。总结步骤应该是:安装依赖→下载模型→调整配置→启动服务→验证测试。同时,提醒用户注意量化版本的选择和可能的配置调整,确保部署顺利。</think>### 分步教程:使用vLLM部署QwQ-32B模型 #### 一、环境准备 1. 安装CUDA驱动 确保显卡驱动支持CUDA 11.8+,通过命令验证: ```bash nvidia-smi ``` 2. 创建虚拟环境(推荐) ```bash conda create -n vllm python=3.9 conda activate vllm ``` #### 二、模型下载 1. 通过ModelScope获取完整模型(需约60GB显存): ```bash pip install modelscope python -c "from modelscope.hub.snapshot_download import snapshot_download; snapshot_download('Qwen/QwQ-32B', cache_dir='./QwQ-32B')" [^1] ``` 2. (可选)下载4bit量化版本(约20GB): ```bash ollama pull QwQ-32B:4bit ``` #### 三、vLLM安装配置 1. 安装最新版vLLM: ```bash pip install vllm ``` 2. 修改tokenizer配置(解决不输出<think>问题): ```bash vim ./QwQ-32B/tokenizer_config.json # 删除"<think>"相关配置项[^3] ``` #### 四、启动推理服务 1. 基础启动命令(需A100 80G*2): ```bash python -m vllm.entrypoints.openai.api_server \ --model ./QwQ-32B \ --tensor-parallel-size 2 \ --gpu-memory-utilization 0.95 ``` 2. 消费级显卡启动(如RTX 3090 24G*2): ```bash python -m vllm.entrypoints.openai.api_server \ --model QwQ-32B:4bit \ --quantization awq \ --dtype half \ --tensor-parallel-size 2 ``` #### 五、服务验证 1. Python客户端测试: ```python from openai import OpenAI client = OpenAI(base_url="http://localhost:8000/v1") response = client.chat.completions.create( model="QwQ-32B", messages=[{"role": "user", "content": "解释量子纠缠"}] ) print(response.choices[0].message.content) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

go2coding

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值