LLaMA、Baichuan、ChatGLM、Qwen、天工等大模型对比

  • 12.10更新:Qwen技术报告核心解读

Baichuan

  • Baichuan 2: Open Large-scale Language Models

    • 数据处理:数据频率和质量,使用聚类和去重方法,基于LSH和dense embedding方法
    • tokenizer:更好的压缩率,对数字的每一位分开,添加空格token
    • 位置编码:7B Rope,13B ALiBi
    • 使用了SwiGLU激活函数,因为SwiGLU是一个双线性层,多引入一个门控矩阵,参数量
      更多,hidden_size从4减少到了8/3
    • 使用了更高效的基于xFormers的attention实现
    • 使用RMSNorm,对transformer的block输入进行了Layer Norm
    • 使用了AdamW优化器,为了稳定训练和提高模型性能,对输出embedding进行了归一化
      即对header进行了归一化;训练中logits值偏大,在推理时,对重复惩罚参数比较
      敏感,因此加入了max-z loss
    • 使用了有监督微调和RLHF
  • Baichuan v1 7b

    • https://github.com/baichuan-inc/Baichuan-7B
    • 数据:开源的中英文数据和互联网数据,使用了启发式的数据过滤,然后使用了去重和
      质量打分策略来进一步筛选数据
    • 分词:重新训练了BPE模型,更好的压缩率;对数字的每一位分开,避免出现数字不一
      致问题;支持UTF-8 character的byte编码,对未知词全覆盖
    • 模型:同LLama,Rope位置编码,SwiGLU,基于RMSNorm的Pre-Norm
  • Baichuan v1 13b

    • 使用ALiBi位置编码,更多的训练数据

ChatGLM

  • ChatGLM:千亿基座的对话模型开启内测⸺对应单卡版本开源

  • GLM

    • GLM: General Language Model Pretraining with Autoregressive Blank Infilling
    • 使用了blank filling的自回归方式来统一所有任务目标。其通过mask spans来自回归的预测被mask的span,非span区域是互见的,span之间的可见性取决于span的随机排列顺序
    • 为了获得更好的生成性能,通过mask更长span,以及对整句进行mask
    • 使用的2D位置编码:被mask的序列绝对位置; 非span区域位置为0,span内部位置从1开始编码
    • https://github.com/THUDM/GLM
  • https://github.com/THUDM/GLM-130B

  • https://github.com/THUDM/ChatGLM-6B

    • 1T token; 监督微调、反馈自助、人类反馈强化学习
    • Rope; Layer Norm; GLUE激活函数; prefix模型的mask方式
    • 使用2d的position_id和block_position_id:block_position_id是把input的pos_id全部置为0;计算attention时需要把query和key chunk成2块
  • https://github.com/THUDM/ChatGLM2-6B

    • 1.4T; 人类偏好对; 使用GLM的混合目标函数
    • 更长的上下文;使用multi-query attention
    • Rope; preNorm; RMSNorm; SwiGLU激活函数(与LLama相同)
  • https://github.com/THUDM/ChatGLM3

    • 更多样的训练数据、更充分的训练步数和更合理的训练策略;采用了全新设计的Prompt格式,支持工具调用、代码执行、Agent
    • 模型配置与chatglm2相同
  • 其他开源项目

    • https://github.com/lich99/ChatGLM-finetune-LoRA

      • 基于alpaca数据集,使用Lora技术微调ChatGLM-6B
    • https://github.com/mymusise/ChatGLM-Tuning

      • 基于alpaca数据集,使用Lora技术微调ChatGLM-6B
    • https://github.com/liangwq/Chatglm_lora_multi-gpu

      • 支持多机多卡训练
    • https://huggingface.co/silver/chatglm-6b-slim

      • 是在ChatGLM-6B的基础上通过裁剪词表构建的。因为ChatGLM-6B使用了icetk,在其词表中,前20000个token是预留给图片的
    • https://github.com/MediaBrain-SJTU/MedicalGPT-zh

      • 一个基于ChatGLM的在高质量指令数据集微调的中文医疗对话语言模型
    • https://github.com/hiyouga/ChatGLM-Efficient-Tuning

LLaMA

  • LLaMA: Open and Efficient Foundation Language Models

    • 数据处理:质量过滤,重复过滤
    • 共1.4T tokens,除了高质量的book和wikipedia数据训练两个epoch,其他数据都训练1个epoch
    • 模型:Rope; preNorm; RMSNorm; SwiGLU激活函数
  • Llama 2: Open Foundation and Fine-Tuned Chat Models

    • 相比llama1,数据增加40%,长度增加一倍,使用了group-query attention
    • llama2-chat是在llama2基础版本的基础上使用有监督微调和RLHF
    • llama2-chat使用3w条高质量SFT数据,更小学习率,2epoch,user_prompt不计算loss
    • llama-chat的RLHF训练
      • 使用二分比较模式;为了最大化生成数据的多样性,对同一个prompt,使用不同的模型、使用不同的温度参数;新模型迭代需要使用新模型生成的偏好数据
      • 奖励模型:使用两个奖励模型,helpfulness和safety,使用chat model checkpoint来初始化;奖励模型与chat model不同地方就是分类header替换成regression header,
        损失使用的是binary ranking loss,使用了margin进一步优化
      • 为了提高多轮对话的一致性,提出可Ghost Attention

Qwen

  • 3T tokens;语言判别工具;去重工具;低质量数据过滤(rule-based & machine-learning-based);上采样部分数据;在预训练阶段添加部分指令数据
  • BPE tokenizer(基于tiktoken);使用常用chinese token增强;数字细粒度切分
  • 基础模型:主要基于llama,改进的地方:embedding和output project不在共享权重;使用FP32的Rope;移去所有的bias,但是QKV添加了bias;
    使用Pre-Norm & RMSNorm;SwiGLU激活函数
  • 推理长度扩展:NTK-Rope;LogN-Scaling;window attention(lower layer对window size更加敏感,因此lower layer使用更小的window size)
  • SFT finetune and RLHF: 为了提高泛化性,去掉了固定prompt格式的数据;使用了OpenAI的chatML-style format;RLHF基本同llama2
  • TOOL USE, CODE INTERPRETER, AND AGENT:使用了self-instruce+人工纠正,训练时也添加了其他通用目的的SFT数据
  • Code-Qwen:基于基础模型用code data进一步预训练,然后使用Code SFT数据微调

在这里插入图片描述

点击查看我的更多AI学习笔记github

  • 13
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值