+
解释
The details of the model architecture of Qwen-1.8B are listed as follows:
| Hyperparameter | Value |
|:----------------|:-------|
| n_layers | 24 |
| n_heads | 16 |
| d_model | 2048 |
| vocab size | 151851 |
| sequence length | 8192 |+
Qwen-1.8B 模型的架构细节如下所示:
| 超参数 | 值 |
|-----------------|--------|
| n_layers | 24 |
| n_heads | 16 |
| d_model | 2048 |
| 词汇表大小 | 151,851 |
| 序列长度 | 8192 |
- `n_layers`:模型中的 Transformer 层的数量。在 Qwen-1.8B 中,有 24 层。
- `n_heads`:多头注意力机制中的注意力头数。Qwen-1.8B 具有 16 个注意力头。
-