总结:大模型技术栈

本文详细总结了大模型的技术栈,涵盖了从算法与原理(如tokenizer训练、注意力机制、transformer架构)、训练方法(预训练、RLHF训练、分布式并行训练)、推理优化(包括剪枝、量化、显存优化)到应用实践(RAG、文本检索、Agent框架)等多个方面。同时,讨论了训练框架(如deepspeed、megatron-lm)和推理服务(如FastChat、LMDeploy),以及开源模型和相关工具,为深入理解和应用大模型提供了全面的指南。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 原文地址:大模型技术栈

  • 第一部分:算法与原理
    • 第一章 概览与前置任务
      • tokenizer训练
        • tokenizer原理与算法:BPE,ByteBPE,wordpiece,unilm,sentence-piece
        • tokenizer训练:sentence-piece
      • position encoding方案
        • Alibi
        • RoPE
      • 注意力机制与transformer架构
        • 典型的自注意力机制
        • 其他注意力机制
          • Mamba,H3,Hyena,RetNet,RWKV,Linear attention,Sparse attention
        • 典型的transformer架构
          • decoder-only
          • encoder-only
          • encoder-decoder
    • 第二章 训练
      • 预训练
        • lm训练配置
          • 正则化方法
          • 激活函数
          • 优化器
      • SFT训练
      • 强化学习
        • Police-Based
        • Value-Based
        • Actor-Critic
      • RLHF训练
      • 其他指令对齐训练
      • 分布式并行训练技术
        • 模型并行
          • tensor parellelism
          • 序列并行
          • pipeline parellelism
            • GPipe,1F1B,interleaved 1F1B
        • 数据并行
          • DP,DDP,FSDP,ZeRO
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值