自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 花书笔记|病态条件与产生原因

一个矩阵的条件数(condition number)可以定义为其范数(norm)与逆矩阵的范数的乘积。具体来说,矩阵 A 的条件数定义为:也可通过奇异值定义,设的奇异值为。

2024-07-07 12:21:50 894

原创 GPT|手写纯解码器的Transformer代码实现

总结构定义位置,堆叠6层DecoderLayerself.pooling = nn.AdaptiveAvgPool1d(1) # 添加池化层x = x.transpose(1, 2) # 调整维度以适应池化操作x = self.pooling(x).squeeze(2) # 应用全局平均池化# 初始化 tokenizer。

2024-06-17 22:32:56 415

原创 GPT|《Improving language understanding by generative pre-training 》论文阅读笔记

GPT通过在各种未标注文本语料库上对语言模型进行,然后在每个特定任务上进行,可以在使用大量数据集进行训练下,迁移到大多数NLP任务之上。GPT是基于Transformer模型建立起来的,因为相比于LSTM其具有更好的并行存储计算能力,并能记忆更长的上下文相关信息,并采用纯解码器的结构构造。

2024-06-16 16:18:50 885 1

原创 Transformer|手写自注意力网络(用于NER任务)

定义模型print("模型权重已加载,模型信息已保存到 model_info.txt")模型整体结构与相关超参数为:注意!超参数不在这里改,这就是个输出。Transformer|《Attention Is All You Need》论文阅读笔记虽然是个纯编码器模型,但效果很好。因为这是NLP课的一次作业另外此时分还没出,如果有幸被助教看到这篇文章请注意此时第二次作业已经截止了这篇文章是截止之后发的是我写的不是我抄的别扣我分了我已经分不多了再扣我分我真的活不下去了啊啊啊啊啊啊啊啊啊!

2024-06-16 11:30:34 585

原创 Transformer|《Attention Is All You Need》论文阅读笔记

自注意力网络能够捕捉到比LSTM更长的上下文依赖关系,由此也打破固定窗口内的上下文信息距离限制,虽然这一定程度上造成了时间复杂度的损失:我们假设是序列长度,是输入向量的维度,是隐藏层的大小,那么对4个门控单元(输入门、遗忘门、输出门、候选记忆单元)的时间复杂度为(4倍可忽略),因为涉及到输入向量和隐藏状态的矩阵乘法。因此顺序处理的整个复杂度为:对于transformer,假设模型有层,那么总的复杂度为。

2024-06-16 10:36:28 881 1

原创 Bert论文学习笔记

学习BERT论文时的笔记

2024-06-15 12:47:44 995 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除