(initial)
码龄4年
关注
提问 私信
  • 博客:28,328
    28,328
    总访问量
  • 49
    原创
  • 52,889
    排名
  • 295
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2020-10-21
博客简介:

YPeng_Gao的博客

查看详细资料
  • 原力等级
    当前等级
    3
    当前总分
    247
    当月
    1
个人成就
  • 获得309次点赞
  • 内容获得11次评论
  • 获得333次收藏
创作历程
  • 20篇
    2024年
  • 13篇
    2022年
  • 16篇
    2021年
成就勋章
TA的专栏
  • 大模型微调
    付费
    18篇
  • 大模型应用
    2篇
  • python
    7篇
  • flask
    6篇
  • 脚本
    3篇
  • app自动化
    2篇
  • web自动化
    1篇
  • 工具
    4篇
  • 自动化测试
    3篇
兴趣领域 设置
  • Python
    python
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Sea

发布资源 2024.11.05 ·
pdf

LongReward: Improving Long-context Large Language Models with AI

发布资源 2024.11.05 ·
pdf

18.实战 LLaMA2-7B 指令微调

Pre-Training 和 Fine-Tuning是深度学习,特别是在自然语言处理(NLP)领域中,训练大模型(如LLaMA、GPT、Gemini等)的两个关键步骤。这两个步骤共同构成了一种有效的策略,用于利用大量未标记数据学习通用知识,然后通过少量标记数据将这些知识应用于特定任务。Pre-Training是指在大量未标记数据上训练深度学习模型的过程。这一步骤的目的是使模型能够学习到数据的通用特征和模式,从而捕获语言的基本语法和语义信息。
原创
发布博客 2024.06.17 ·
1342 阅读 ·
33 点赞 ·
0 评论 ·
13 收藏

17.Meta AI 大模型家族 LLaMA

在训练 65B 模型时,Meta 代码在2048个A100 GPU(80GB)上处理速度约为380 tokens/sec/GPU。这意味着在1.4T Tokens。数据集上训练需要约21天。LLaMA 1:小模型+大数据。Llama 2 基座模型是在。上 进行 RLHF 训练得到。上 进行 RLHF 训练得到。
原创
发布博客 2024.06.17 ·
553 阅读 ·
12 点赞 ·
0 评论 ·
6 收藏

16.大模型分布式训练框架 Microsoft DeepSpeed

DeepSpeed 是一个开源深度学习优化库,旨在提高大模型训练和运行效率,以支持数千亿~万亿参数的超大语言模型。
原创
发布博客 2024.06.16 ·
1786 阅读 ·
33 点赞 ·
0 评论 ·
31 收藏

15.混合专家模型(MoEs)技术揭秘

这种设计对大规模计算尤其有利:当模型扩展到多个设备时,MoE层在这些设备间共享,而其他层则在每个设备上独立存在。如果两个专家的处理能力都已达到上限,那么这个 Token 就会被认为是多余的,并通过残差连接传递到下一层,或在某些情况下被直接丢弃。注:在模型编译时所有的张量形状(Tensor Shape)都是静态确定的,但无法预先知道每个专家将处理多少Token,因此需要设定一个固定的处理能力上限。:在 top-2 设计中,我们始终选择表现最优的专家,但第二选择的专家则根据其权重以一定概率被选中。
原创
发布博客 2024.06.16 ·
1162 阅读 ·
22 点赞 ·
0 评论 ·
21 收藏

Llama 2 Open Foundation and Fine-Tuned Chat Models.pdf

发布资源 2024.06.15 ·
pdf

A Survey of Large Language Models.pdf

发布资源 2024.06.15 ·
pdf

ZeRO-Offload Democratizing Billion-Scale Model Training.pdf

发布资源 2024.06.15 ·
pdf

ZeRO-Infinity .pdf

发布资源 2024.06.15 ·
pdf

ZeRO Memory Optimizations Toward Training LLM.pdf

发布资源 2024.06.15 ·
pdf

通过简单高效的稀疏性将开关变压器扩展到万亿参数模型.pdf

发布资源 2024.06.15 ·
pdf

ST-MOE DESIGNING STABLE AND TRANSFERABLE SPARSE EXPERT MODEL.pdf

发布资源 2024.06.15 ·
pdf

Mixture-of-Experts with Expert Choice Routing.pdf

发布资源 2024.06.15 ·
pdf

Mixtral AI.pdf

发布资源 2024.06.15 ·
pdf

Learning Factored Representations in a Deep MOEs.pdf

发布资源 2024.06.15 ·
pdf

GLaM Efficient Scaling of Language Models with MOE.pdf

发布资源 2024.06.15 ·
pdf

Adaptive-mixtures-of-local-experts.pdf

发布资源 2024.06.15 ·
pdf

14.基于人类反馈的强化学习(RLHF)技术详解

先收集⼀个提示词集合,并要求标注⼈员写出⾼质量的回复,然后使⽤该数据集以监督的⽅式微调预训练的基础模型。对这⼀步的模型,OpenAI 在其第⼀个流⾏的 RLHF 模型 InstructGPT 中使⽤了较⼩版本的 GPT-3;这⼀模型接收⼀系列⽂本并返回⼀个标量奖励,数值上对应⼈的偏好。首先,该策略 (policy) 是一个接受提示并返回一系列文本 (或文本的概率分布) 的 LM。这个策略的行动空间 (action space) 是 LM 的词表对应的所有词元 (一般在 50k 数量级)
原创
发布博客 2024.06.15 ·
706 阅读 ·
3 点赞 ·
0 评论 ·
9 收藏

13.ChatGPT 大模型训练核心技术

从 GPT-3 到 ChatGPT 的大模型训练技术演进
原创
发布博客 2024.06.15 ·
378 阅读 ·
12 点赞 ·
0 评论 ·
4 收藏
加载更多