fly_jx-CSDN博客

转载 Pytorch框架梳理

Pytorch 框架梳理转载地址1 Pytorch核心模块1.1 torchtorch是框架的核心模块，主要包括一些激活函数，对tensor得操作以及构建新的张量1.2 torch.Storage负责 torch.Tensor 底层的数据存储。假设一个 K 阶张量，它的维度是 (k1, k2, k3…,kn) ，由于计算机的内存是连续的地址空间，所以在实际存储过程中存储的是 1 维的向量，这个向量在内存中的大小为k1 * k2 * k3…*kn。其中 k1 为高纬， kn为低维。1.3 t

2022-04-29 15:24:06 840

原创机器学习：正则化

正则化1：为什么需要正则化在深度学习过程中容易出现过拟合的情况，就是模型在训练集上得到完全拟合，在测试集上效果很差。过拟合产生的原因是模型把数据样本的噪声或特性当作一般样本的共有特性拟合了（高方差）解决过拟合的方法有很多，比如减少迭代次数，使用dropout，数据清洗等，正则化也是一种解决过拟合，提高模型泛化性的方法。2：什么是正则化正则化是在训练过程中给训练的损失增加一个正则项惩罚，约束系数的解，降低系数的值。正则化一般分为L1和L2正则，也叫L1范数，L2范数。L1正则化的原则是样本特

2022-04-18 20:57:32 1442

原创数据不平衡解决方法

数据不平衡的解决方法1：什么是数据不平衡以二分类举例，数据不平衡是指数据集中正类和负类的比例严重失调，比如正：负为9：1。数据不平衡会导致模型学习偏差，模型会倾向于学习比例高的数据特征，对比例低的数据只学习到很少的特征。在真实的业务场景中，比如地震预测，地震发生的样例和地震不发生的样例比例失衡，如果模型倾向于预测地震不发生，就会出现模型误判地震发生为不发生的情况，这是不能容忍的，因此解决数据不平衡问题很重要。2 解决方法2.1 数据方面上采样：增加少类样本下采样：抛弃部分大类样本2.2 模型

2022-04-13 20:50:03 3366

原创 Bert预训练模型

Bert预训练模型1 架构bert的输入是input_emb + pos_emb + seg_emb，分别是词向量，位置编码，句子编码bert的编码端是由相同的编码层堆叠而成，每个编码层包括：多头自注意力机制，残差连接，layer norm, ffn， layer norm组成。bert的编码层层数：12（base）, 24(large)维度：7682：bert的预训练任务2.1 MLM（masked language model）bert的MLM是对于输入文本，随机选取15%的token对

2022-04-13 20:37:26 1576

原创 Normalization

机器学习中Normalization1：为什么需要Normalization神经网络训练开始前，都要对输入数据进行归一化处理，那么为什么需要归一化？归一化后有什么好处呢？机器学习有个很重要的假设： IID独立同分布，就是假设训练数据和测试数据是满足相同分布的。因此在数据喂给模型之前，进行“白化”，其中最典型的白化方法是PCA。白化一般包含两个步骤：1：去除特征之间的相关性：独立2：使得所有特征具有相同的均值和方差：同分布每批数据的分布各不相同，就是导致模型会去拟合各个不同的分布，降低收敛速度。

2022-04-13 15:13:59 119

原创对比学习总结

对比学习1：理论对比学习的目的是希望我们输入的目标样例尽可能的靠近正样例以及远离负样例，在对比学习里，正负样例的选择非常重要2：正负样例的选择在多语言翻译里，一般我们把样例和目标翻译语言作为正样例，其他语言非对应目标语言翻译样本作为负样例，将对比损失和翻译损失相加作为最终损失在分类里，我们一般把同类别的样例作为正样例，不同类别的样本作为负样例可以将样本语句通过反向翻译得到的翻译语句作为目标样例的正样本，其他训练语料的语句作为负样本3：序列到序列模型的对比损失计算一般来说，对比学习都是在编

2022-04-03 20:27:12 812

原创对抗训练及其代码实现

对抗训练及其代码实现1： fgm对于输入X，正常训练得到梯度，然后给X的embeddings加一个扰动获得扰动后的梯度（扰动根据embedding的梯度计算得来），两个梯度相加更新模型。代码实现import torchclass FGM(): def __init__(self, model): self.model = model self.backup = {} def attack(self, epsilon=1., emb_name=

2022-04-03 16:57:28 3767

原创文献阅读：Self-Attention with Relative Position Representations

文献阅读：Self-Attention with Relative Position Representations论文地址1：简介跟RNN和CNN使用相对位置编码或绝对位置编码相比，transformer使用绝对位置编码在输入端。本文探究在模型中引入相对位置编码，具体而言，是在模型的注意力机制中，融入相对位置信息2：方法transformer的注意力机制对他的改进：3：相对位置表示对于transformer的每一层，在multihead_attn中添加relative

2022-03-30 16:06:28 957

原创文献阅读

Investigating Pretrained Language Models for Graph-to-Text Generation论文地址： https://arxiv.org/abs/2007.084261 简介这篇论文主要是探究预训练语言模型在AMR-to-Text，KG上的应用，其中主要做了一下研究 1 首先直接使用预训练语言模型应用到图到文本生成任务，并取得了很好的效果 2 在预训练模型的基础上，增加额外的预训练任务（与目标任务相关的任务），然后再对目标任务进行fine-tu

2021-04-26 15:37:26 159

原创 2021-03-22

解决Pyinstaller 在mac os 下，exec可以运行，.app文件闪退问题由于课题的原因，需要写一个辅助软件，便使用了pyqt作为框架进行开发，但在打包过程中，对于程序中文本文件的访问总是路径出错。在网上搜寻后，很多解决方案都是修改路径os.path.join(os.path.dirname(sys.argv[0]), 'data/corpus/AMRcorpus.ptb')修改后，将使用的文件放到dist目录下，但exec文件可以运行，.app文件闪退。在经过多方尝试，不断修改路径无果

2021-03-22 17:48:15 53

weixin_42145837的博客