阿里千问大模型 Qwen1.5 开源 32B 模型，将开源进行到底！！！

最新推荐文章于 2025-03-14 11:30:35 发布

大模型与自然语言处理

最新推荐文章于 2025-03-14 11:30:35 发布

阅读量3.7k

点赞数 10

分类专栏：大模型 NLP与大模型文章标签：面试 transformer 自然语言处理大模型语言模型算法

本文链接：https://blog.csdn.net/2201_75499313/article/details/137480143

版权

NLP与大模型同时被 2 个专栏收录

213 篇文章

订阅专栏

大模型

50 篇文章

订阅专栏

阿里开源的千问系列模型，一直受到业界好评，之前版本有0.5B、1.8B、7B、14B、72B，但一直缺少的30B级别开源模型，这也一直是一个遗憾。

怎么说呢？72B模型太大，很多人用不起来，无论是微调，还是模型推理部署，成本太高；而14B又有点小，很多场景中效果不理想，因此需要一个处在中间状态的模型-30B左右。

周二我们社群有群友透露，本周会开源30B级别模型。

在这里插入图片描述

群友果然靠谱，在清明节期间，放出来了Qwen1.5的32B模型，不仅涉及Base模型、Chat模型、还有量化的系列模型，详细见下面链接。

HF: https://huggingface.co/Qwen/Qwen1.5-32B
Blog: https://qwenlm.github.io/blog/qwen1.5-32b/

PS：千问真是开源走到了底，不给其他家留余地，之前30B级别的Yi怎么办呀！！！

大模型面试

节前，我们星球组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学，针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。

汇总合集：《大模型面试宝典》(2024版) 发布！

模型介绍

模型参数：词表大小152064，64层、隐藏层维度5120，支持32k长度。

{
  "architectures": [
    "Qwen2ForCausalLM"
  ],
  "attention_dropout": 0.0,
  "bos_token_id": 151643,
  "eos_token_id": 151643,
  "hidden_act": "silu",
  "hidden_size": 5120,
  "initializer_range": 0.02,
  "intermediate_size": 27392,
  "max_position_embeddings": 32768,
  "max_window_layers": 35,
  "model_type": "qwen2",
  "num_attention_heads": 40,
  "num_hidden_layers": 64,
  "num_key_value_heads": 8,
  "rms_norm_eps": 1e-06,
  "rope_theta": 1000000.0,
  "sliding_window": 32768,
  "tie_word_embeddings": false,
  "torch_dtype": "bfloat16",
  "transformers_version": "4.37.2",
  "use_cache": true,
  "use_sliding_window": false,
  "vocab_size": 152064
}

看看指标。

在这里插入图片描述

从指标上来看，Qwen1.5-32B模型，相较于72B模型有一些差距，但是由于Yi-34B和Llama2-34B很多。Yi在30B级别的地位不保啦。

32B-Chat版本模型在MT-Bench榜单上超过8分，并且与72B-Chat版本模型差距较小。

在这里插入图片描述 )

Qwen1.5-32B还支持多语言，包括阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、俄语、日语、韩语、越南语、泰语和印尼语等，相关评测如下。

在这里插入图片描述 )

在32k长度上，进行大海捞针实验，也相对比较出色。

在这里插入图片描述 )

快速使用

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto

model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen1.5-32B-Chat",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-32B-Chat")

prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(
    model_inputs.input_ids,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]