千问的大模型KnowHow

最新推荐文章于 2024-08-22 19:02:11 发布

李rumor

最新推荐文章于 2024-08-22 19:02:11 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/m0_37310036/article/details/133328085

版权

卷友们好，我是rumor。

通义千问昨天放出了14b参数的模型，还有一份比较详尽的技术报告，包含作者们训练8个模型的宝贵经验。

同时他们开源的13B比起开源的SOTA也有不少提升：

今天我们就来一起白嫖，更多细节请移步原文：

https://qianwen-res.oss-cn-beijing.aliyuncs.com/QWEN_TECHNICAL_REPORT.pdf

预训练

数据

过了3T token，超过了Baichuan2的2.6T，（大概率）是目前中文社区过了最多语料的开源模型
提升多样性：数据归一化、MinHash和LSH去重
提升质量：通过规则和分类器，给样本打标，包括语言、质量分、有害内容等；随机抽样再进行review；对高质量数据源进行上采样

Tokenization

BPE，开源tiktoken的实现
把数字切成digit
最终词表152k，压缩比优于llama、Baichuan、ChatGLM等，但未跟llama2、Baichuan2对比

模型结构

本来LM里为了节省内存，词表大小的embedding层和输出的预测层是权重共享的，千问为提升效果取消了embedding和output的权重共享
采用RoPE^[1]，为了提升精度和表现，inverse frequency矩阵采用FP32
参考PaLM，去掉了大部分层的bias计算，但为了提升外推能力，保留了QKV计算时的bias
把Pre-Norm换成了RMSNorm，免去了均值的计算，主要是提升效率，效果差不多
激活函数用SwiGLU，为了保证参数量不变，缩小了FFN的维度
对于外推，提出了一种dynamic NTK-aware^[2]的插值方法，可以避免效果下降
在attention计算时使用LogN-Scaling，根据上下文长度调整点乘，保证注意力的熵在上下文长度增加时也保持稳定，同时能提升外推表现。公式如下，完整的讲解请移步苏神博客^[3]
采用window attention，只在一段窗口内做注意力计算，减少计算量。同时发现较低的层对上下文长度更敏感，因此用更短的窗口

精调

数据质量上，去除了只用prompt模版构造的数据，在人类风格的对话上精调
采用了ChatML的格式，让模型可以区分角色和多轮

[
 {"token": "<|im_start|>"},
 "system\nYou are ChatGPT, a large language model trained by OpenAI. Answer as concisely as possible.\nKnowledge cutoff: 2021-09-01\nCurrent date: 2023-03-01",
 {"token": "<|im_end|>"}, "\n", {"token": "<|im_start|>"},
 "user\nHow are you",
 {"token": "<|im_end|>"}, "\n", {"token": "<|im_start|>"},
 "assistant\nI am doing well!",
 {"token": "<|im_end|>"}, "\n", {"token": "<|im_start|>"},
 "user\nHow are you now?",
 {"token": "<|im_end|>"}, "\n"
]