深度学习
文章平均质量分 84
muyuu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【强化学习漫谈】3.RLHF:从Reward Model到DPO
前面说过,不管是两个偏好回答还是 K 个偏好回答,都可以用 BT 模型来建模 Reward Loss,所以我们这里只推导这种情形下的 DPO Loss,PT 模型下的 DPO Loss 是同理的。不过相对第一点,这一点要改进比较难,因为 DPO 的重点就是把稠密的奖励信号简化成了稀疏的奖励信号,否则就又回到强化学习的路上了。我们在前面的文章里详细讨论过 PPO,虽然效果不错,但LLM中使用PPO一个最大的问题是。可以看出,不论是训练时的显存,还是计算量,DPO 相比起 PPO,都可谓是有大幅度的下降。原创 2025-04-15 21:15:07 · 1535 阅读 · 0 评论 -
【强化学习漫谈】1.RLHF:从PPO到GRPO
然而上述只考虑绝对分数的目标函数会有一个问题:由于每个人的水平不同,如果小明是个差生,一般只能考到30分左右,而其他人都能考到80分以上,如果只拿绝对分数作为考评,小明很可能就破罐子破摔了。为了奖励信号能及时反应小明每次成绩的变化,我们需要引入一个预期分数线来改善考评机制,只要每次“累计成绩”能超过预期分数线,就可以拿到好的考评结果,这样处于不同水平的学生都可以获得一个比较良性的激励。那么用什么来作为预期分数线比较合理呢?原创 2025-04-14 14:06:39 · 1026 阅读 · 0 评论 -
【Andrej Karpathy 神经网络从Zero到Hero】--2.语言模型的两种实现方式 (Bigram 和 神经网络)
【系列笔记】本文主要参考,演示。原创 2025-03-09 22:55:25 · 1097 阅读 · 4 评论 -
DeepSpeed Zero 解读
检查点技术通过在前向传播时只存储部分关键激活值(称为“检查点”),在反向传播时重新计算丢弃的部分,以此降低内存占用,并不会引入跨设备的数据传输延迟。,输入长,batch size大,activates内存就大,各个GPU上由于输入的数据不同,其activates变量也不一样,不涉及重复存储的问题。,即无论input是什么,batch size多大,需要用到的变量都是这些,因此可以认为这些变量在各个GPU上都保留一份是纯复制,是冗余的;原创 2025-02-03 22:12:02 · 653 阅读 · 0 评论 -
【Andrej Karpathy 神经网络从Zero到Hero】--1. 自动微分autograd实践要点
第一步首先要定义Valuedata(Value 的数值),grad(Value 的梯度),_backward(反向传播函数,初始化为 None),_prev(需要依赖于它的Value)"return outreturn outreturn outtopo = []每个算子的_backward函数需要依次按算子进行手动定义一个Value的backward函数,是从当前Value开始,先将依赖于这个Value的所有Value按依赖顺序串起来,然后再从当前Value。原创 2024-08-21 21:11:45 · 1449 阅读 · 0 评论 -
训练 Transfomer 模型的内存消耗计算
经典图打底:LY∂W∂LY−Y2XTW−2Y−Y∂W∂Y−2Y−XTWX这里面X就需要保存下来供反向传播时使用下面具体的分析中需要用到每一层的具体运算张量,具体可以参考。原创 2024-08-13 16:13:03 · 1081 阅读 · 0 评论 -
ChatGPT原理解读
chagpt 算法介绍原创 2023-03-02 16:18:21 · 7197 阅读 · 0 评论 -
神经网络与深度学习6---网络优化与正则化
网络优化与正则化参数初始化为什么不能将参数初始化为全零本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中 第7章:网络优化与正则化 的读书笔记,主要内容是一些本人觉得比较值得记录的内容,中间也会包括一些拓展和思考。参数初始化为什么不能将参数初始化为全零以一个三层网络为例:其中z4=w14∗x1+w24∗x2+w34∗x3+b4z5=w15∗x1+w25∗x2+w35∗x3+b5z6=w16∗x1+w26∗x2+w36∗x3+b6z_4=w_{14}∗x_1+w_{24}∗x_2+w_{34}∗原创 2022-09-02 17:53:03 · 775 阅读 · 0 评论 -
非root用户安装cuda与cudnn
非root用户安装cuda与cudnnubuntu非root用户安装CUDA以及cuDNN转载 2022-04-13 23:11:38 · 709 阅读 · 0 评论 -
Word2vec结构详解及原理推导
目录统计语言模型神经概率语言模型Word2vecHierarchical SoftmaxHuffman 树CBOW 和 Skip-gramNegative SamplingCBOW 和 Skip-gram由于 Word2Vec 本质其实是一个语言模型,词向量只是这个语言模型的副产物,因此我们首先简单看一下语言模型:统计语言模型语言模型其实就是计算一个句子出现的概率,例如:我明天早上要去上学明天去上学我要早上我名天枣上要去尚学那么一个好的语言模型应该会让句子1的概率大于句子2和句子3。具体来原创 2022-04-05 20:52:46 · 1801 阅读 · 0 评论 -
神经网络与深度学习7---注意力机制与seq2seq模型
目录注意力评分函数基于循环神经网络的seq2seq模型本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中 第8章:注意力机制与外部记忆 的读书笔记,主要内容是一些本人觉得比较值得记录的内容,中间也会包括一些拓展和思考。注意力评分函数以下为注意力机制的流程图,查询 q\boldsymbol qq 通过注意力评分函数 aaa 与键 k\boldsymbol kk 作用,并通过softmax得到对应 k\boldsymbol kk 的概率分布值,最后这些概率分布值与值 v\boldsymbol vv 做加权原创 2022-03-29 10:59:07 · 1673 阅读 · 0 评论 -
Transfomer矩阵维度分析及MultiHead详解
目录参数量各结构解析训练阶段Encoder Multihead Attention解读Transformer就离不开下面这张图:不同于之前的基于rnn的seq2seq模型,Transfomer完全摒弃了循环神经网络的结构:encoder层: {多头自注意力 + 前馈网络} ×n\times n×ndecoder层: {掩蔽多头自注意力 + encoder-decoder多头自注意力 + 前馈网络} ×n\times n×n下面我们介绍Transformer模型中的参数变化情况:参数量对于原创 2022-03-21 17:19:42 · 4982 阅读 · 2 评论 -
keras.losses中 reduction=‘none‘的用法
以循环神经网络为例,pred的形状是 (batch_size, num_steps, vocab_size),label的形状是 (batch_size, num_steps)。计算预测值与真实值的损失:tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True, reduction='none')(label, pred)reduction key的可选值‘none’:每个step位置的损失都单独保留。返回值的形状为:(batch_s原创 2022-02-28 21:49:36 · 2452 阅读 · 0 评论 -
神经网络与深度学习5---循环神经网络
循环神经网络循环神经网络参数量梯度不稳定性(长程依赖)本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中 第6章:循环神经网络 的读书笔记,主要内容是一些本人觉得比较值得记录的内容,中间也会包括一些拓展和思考。循环神经网络传统的前馈神经网络在处理带有时序的数据(例如文本,语音等)时往往能力有限:1. 由于其全连接的结构使得无法学到数据的时序信息,2. 时序数据的输入长度通常是不定的,而前馈神经网络的输入是定长的。针对以上这些特性,研究员们推出了一类称为 循环神经网络 的深度模型结构。其主要模块结构如下原创 2022-02-27 21:03:38 · 763 阅读 · 0 评论 -
keras.losses中from_logits的作用
目录tf.keras.lossesfrom_logits=True 的作用tf.keras.lossesfrom_logits=True 的作用以 SparseCategoricalCrossentropy(from_logits=True) 为例,读keras源码,发现 losses.py 中定义的 SparseCategoricalCrossentropy 实际上调用的是 backend.py 中的 sparse_categorical_crossentropy 函数,代码当中有如下一段:eli原创 2022-02-10 22:36:13 · 3745 阅读 · 0 评论 -
利用conda安装tensorflow2.0 和 pytorch(带镜像)
进入Anaconda Prompt基于 python 3.6 创建虚拟环境:conda create --name tensorflow python=3.6激活创建的环境:activate tensorflow安装 tensorflow 2.0 :pip install tensorflow==2.0.0 -i https://pypi.tuna.tsinghua.edu.cn/simple测试是否安装成功:进入python: python导入tensorflow:import tenso.原创 2021-12-13 16:34:50 · 2143 阅读 · 0 评论 -
CNN中的translation equivariant和translation invariant
目录等变性 equivariant不变性 invraiantCNN的 等变、不变等变性 equivariant通俗解释:对于一个函数,如果你对其输入施加的变换也会同样反应在输出上,那么这个函数就对该变换具有等变性。更严谨些:对于一个函数特征fff以及一个变换ggg, 如果我们有:f(g(x))=g(f(x))f(g(x)) = g(f(x))f(g(x))=g(f(x))则称fff对变换ggg有等变性。举一个例子,假设我们的变换ggg是将图像向右平移一段距离,我们的函数fff是检测一个人脸的位置(转载 2021-09-08 16:07:09 · 1539 阅读 · 0 评论 -
ELMo,GPT, Bert, XLNet 预训练模型对比
Context Based预训练编码器1:自回归语言模型(Decoder-AutoRegression)ELMoELMo简介ELMo的缺点GPTGPT简介GPT的缺点:2:自编码语言模型(Encoder-AutoEncoding)BERTBert的Pretrain:Bert的Fine-tuningBERT的缺点:3:排列语言模型(Encoder-AutoEncoding)XLNetXLNet的构思待研究的部分实验与预训练编码器对应的是word2vec,glove等浅层词嵌入,这类浅层词嵌入特点是学习到一个原创 2020-11-30 15:36:47 · 1112 阅读 · 0 评论 -
NLP位置编码
位置编码原创 2021-01-26 17:35:48 · 2775 阅读 · 3 评论
分享