QVQ-72B，如期而至！继QWQ后，通义千问又开源视觉推理大模型！

最新推荐文章于 2025-04-11 20:58:17 发布

程序员笑武

最新推荐文章于 2025-04-11 20:58:17 发布

阅读量776

点赞数 20

文章标签：人工智能 transformer 深度学习 sql 数据库

本文链接：https://blog.csdn.net/m0_59164304/article/details/144773939

版权

QWQ之后，千问团队又开源了视觉推理大模型QVQ，是72B的呦。

圣诞快乐，如期而至！

HF: https://huggingface.co/Qwen/QVQ-72B-Preview

为啥是72B，可想而知，这个QVQ就是基于前一段时间开源的Qwen2-VL-72B模型上进一步训练得来的。

有个7B的为啥没出QVQ-7B，估计是参数来太少，做o1式推理效果不行，QWQ也是32B起步的，所以模型参数量很关键。

在榜单上的效果，QVQ在MMMU是突破了70，并且整体效果相较于Qwen2-VL-72B还是好了很多，同时也是对标了闭源模型，QVQ依旧能打。

但QVQ-72B依然存在一些问题：

可能存在语言混乱的现象，最明显的就是中英文夹杂
模型容易陷入循环推理，导致回复结果冗长，甚至可能无法返回最终答案
安全性可能有些问题，估计这个版本在安全上应该没来及的做太多，甚至是没做
QVQ不能完全替代Qwen2-VL-72B，随着推理步骤的验证，模型可能逐渐失去对图像内容的关注，从而产生幻觉。

模型，我还在下载，测试完，再写评测文章！

用法跟Qwen2-VL-72B一样，HF代码如下：

    from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor   from qwen_vl_utils import process_vision_info      # 模型通过HF Repo加载   model = Qwen2VLForConditionalGeneration.from_pretrained(       "Qwen/QVQ-72B-Preview", torch_dtype="auto", device_map="auto"   )      # 加载processor   processor = AutoProcessor.from_pretrained("Qwen/QVQ-72B-Preview")      # 这里的系统提示词跟之前有差别   messages = [       {           "role": "system",           "content": [               {"type": "text", "text": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."}           ],       },       {           "role": "user",           "content": [               {                   "type": "image",                   "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/QVQ/demo.png",               },               {"type": "text", "text": "What value should be filled in the blank space?"},           ],       }   ]      # 输入准备   text = processor.apply_chat_template(       messages, tokenize=False, add_generation_prompt=True   )   image_inputs, video_inputs = process_vision_info(messages)   inputs = processor(       text=[text],       images=image_inputs,       videos=video_inputs,       padding=True,       return_tensors="pt",   )   inputs = inputs.to("cuda")      # 模型推理   generated_ids = model.generate(**inputs, max_new_tokens=8192)   generated_ids_trimmed = [       out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)   ]   output_text = processor.batch_decode(       generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False   )   print(output_text)

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述