- 博客(6)
- 收藏
- 关注
原创 花书笔记|病态条件与产生原因
一个矩阵的条件数(condition number)可以定义为其范数(norm)与逆矩阵的范数的乘积。具体来说,矩阵 A 的条件数定义为:也可通过奇异值定义,设的奇异值为。
2024-07-07 12:21:50 894
原创 GPT|手写纯解码器的Transformer代码实现
总结构定义位置,堆叠6层DecoderLayerself.pooling = nn.AdaptiveAvgPool1d(1) # 添加池化层x = x.transpose(1, 2) # 调整维度以适应池化操作x = self.pooling(x).squeeze(2) # 应用全局平均池化# 初始化 tokenizer。
2024-06-17 22:32:56 415
原创 GPT|《Improving language understanding by generative pre-training 》论文阅读笔记
GPT通过在各种未标注文本语料库上对语言模型进行,然后在每个特定任务上进行,可以在使用大量数据集进行训练下,迁移到大多数NLP任务之上。GPT是基于Transformer模型建立起来的,因为相比于LSTM其具有更好的并行存储计算能力,并能记忆更长的上下文相关信息,并采用纯解码器的结构构造。
2024-06-16 16:18:50 885 1
原创 Transformer|手写自注意力网络(用于NER任务)
定义模型print("模型权重已加载,模型信息已保存到 model_info.txt")模型整体结构与相关超参数为:注意!超参数不在这里改,这就是个输出。Transformer|《Attention Is All You Need》论文阅读笔记虽然是个纯编码器模型,但效果很好。因为这是NLP课的一次作业另外此时分还没出,如果有幸被助教看到这篇文章请注意此时第二次作业已经截止了这篇文章是截止之后发的是我写的不是我抄的别扣我分了我已经分不多了再扣我分我真的活不下去了啊啊啊啊啊啊啊啊啊!
2024-06-16 11:30:34 585
原创 Transformer|《Attention Is All You Need》论文阅读笔记
自注意力网络能够捕捉到比LSTM更长的上下文依赖关系,由此也打破固定窗口内的上下文信息距离限制,虽然这一定程度上造成了时间复杂度的损失:我们假设是序列长度,是输入向量的维度,是隐藏层的大小,那么对4个门控单元(输入门、遗忘门、输出门、候选记忆单元)的时间复杂度为(4倍可忽略),因为涉及到输入向量和隐藏状态的矩阵乘法。因此顺序处理的整个复杂度为:对于transformer,假设模型有层,那么总的复杂度为。
2024-06-16 10:36:28 881 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人