自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

跨过一座座山

Bingoyear CSDN认证博客专家 CSDN认证企业博客

码龄7年

62: 原创

4万+: 周排名

1万+: 总排名

20万+: 访问

: 等级

2169: 积分

36: 粉丝

110: 获赞

37: 评论

302: 收藏

私信

关注

热门文章

分类专栏

最新评论

ChatGLM的模型架构
Bingoyear: prefix是双向attention，看下它的attention_mask是单位阵
ChatGLM的模型架构
doufanfan: 有个问题：chatglm的哪一部分是双向attention的？
pytorch中Adam优化器源码解读
Bingoyear: 你好，这里的step函数是进行模型参数更新（optimize.step()），且依赖于参数的梯度。loss的更新是在外部epoch中手动累加
pytorch中Adam优化器源码解读
weixin_47812408: 你好，我想知道，这个loss最开始定义为None，但是我看好像后续都没有对loss更新，这个loss是怎么更新自己的值的？
pytorch中Adam优化器源码解读
buqimingzil: p(t)推导过程，第一行到第二行的step_size的计算，分母里不应该是beta2^t，源码写的是beta1^t

最新文章

NLP

关注

文章平均质量分 78

介绍NLP相关的模型及优化方法

关注数：文章数：12 文章阅读量：22389 文章收藏量：52

作者: Bingoyear

自信人生二百年，会当击水三千里。

展开