guohahaya-CSDN博客

原创 Spanbert

这篇论文中提出了一种新的mask的方法，以及一个新损失函数对象。并且讨论了bert中的NSP任务是否有用　如上图所示，首先这里的mask策略是span mask。具体的做法是首先从一个几何分布中采样span的长度，且限制最大长度为10，然后再随机采样（如均匀分布) span的初始位置。整个训练任务就是预测mask的token，另外mask的比例问题和bert中类似。除了这些之外还有两个策略，一是动态mask，在bert中是在数据预处理阶段对一条序列随机不同的mask 10次，而在这里是...

2021-03-24 21:07:30 514

原创 2021-03-09

Apex使用教程与梯度爆炸问题： Gradient overflow. Skipping step, loss scaler 0 reducing loss scale to 131072.0https://blog.csdn.net/gzq0723/article/details/105885088

2021-03-09 08:56:31 824

原创 torch.gather

torch.gather作用：收集输入的特定维度指定位置的数值参数：input(tensor): 待操作数。不妨设其维度为（x1, x2, …, xn）dim(int): 待操作的维度。index(LongTensor): 如何对input进行操作。其维度有限定，例如当dim=i时，index的维度为（x1, x2, …y, …,xn），既是将input的第i维的大小更改为y，且要满足y>=1（除了第i维之外的其他维度，大小要和input保持一致）。out: 注意输出和in...

2021-01-05 22:09:02 271

原创 lru_cache

from functools import lru_cache #python 缓存机制，递归时候用class Solution: @lru_cache(None) def numDecodings(self, s: str) -> int: if len(s)==0: return 1 cut=0 if int(s[0])!=0: cut+=self.numDecodings(s[1...

2020-12-15 20:56:03 116

原创 Transformer-XL

https://blog.csdn.net/magical_bubble/article/details/89060213要正确理解一篇文章，有时需要参考出现在几千个单词后面的一个单词或一个句子。这是一个长期依赖性(long-range dependence)的例子，这是序列数据中常见的现象，处理许多现实世界的任务都必须理解这种依赖。虽然人类很自然地就会这样做，但是用神经网络建模长期依赖关系仍然很具挑战性。基于Gating的RNN和梯度裁剪(gradient clipping)技术提高了对长期依

2020-12-15 20:55:04 472

原创 self -attention

(1）为什么使用self attentionRNN 的长距离依赖比较 tricky：RNN 很强大（可以作为 encoder 对长度任意的序列进行特征抽取，基于特征抽取的能力可以胜任分类任务，另一方面可以作为Generators 学习 Language Model），其实核心就是长距离依赖（gate architectures - 线性操作让信息可以保持并流动，并选择性地让信息通过），可以对...

2020-12-15 20:54:53 382

原创 albert

ALBERT，该模型提出了两种减少内存的方法，同时提升了训练速度，其次改进了BERT中的NSP的预训练任务。提出用Sentence-order prediction（SOP）任务代替BERT中的Next-sentence prediction（NSP）任务，在ALBERT中主要有三个改进方向。1、对Embedding因式分解（Factorized embedding parameterization）2、跨层的参数共享（Cross-layer parameter sharing..

2020-12-15 20:54:28 417

原创语言模型的演化和相关模型算法的出现

2020-12-15 20:54:20 170

原创 xlnet

https://zhuanlan.zhihu.com/p/70257427XLNet引入了自回归语言模型以及自编码语言模型的提法，

2020-12-15 20:54:08 168

原创 roberta

https://blog.csdn.net/ljp1919/article/details/100666563、mask 代码比较https://blog.csdn.net/baidu_15113429/article/details/103225548改变的只是预训练的方法。论文中写得挺清楚的，比bert好主要是三个方面：nsp丢了没卵用 mask换成动态了，其实相当于不重复看数据数据集放大放大再放大，看！每一个句子都看得清清楚楚1. 静态Masking vs 动态Masking原

2020-12-15 20:53:54 313

原创 apex 安装

git clone https://www.github.com/nvidia/apexcd apexpython setup.py install

2020-12-15 20:22:23 280

原创梯度下降

1 mini-batch梯度下降法在实际应用中，由于样本数量庞大，训练数据上百万是很常见的事。如果每执行一次梯度下降就遍历整个训练样本将会耗费大量的计算机资源。在所有样本中随机抽取一部分(mini-batch)样本，抽取的样本的分布规律与原样本基本相同，事实发现，实际训练中使用mini-batch梯度下降法可以大大加快训练速度。1.1 实现方法mini-batch梯度下降法的思想很简单，将样本总体分成多个mini-batch。例如100万的数据，分成10000份,每份包含100个数据的mini-bat

2020-12-15 20:21:11 100

原创 transformer

https://mp.weixin.qq.com/s/RLxWevVWHXgX-UcoxDS70whttps://zhuanlan.zhihu.com/p/53682800

2020-12-15 20:20:38 130

原创 Can‘t find model ‘en_core_web_lg‘

解决spacyCan't find model 'en_core_web_lg'下载离线安装包pip install en_core_web_lg-2.2.5.tar.gz

2020-12-15 20:19:40 1244

转载 attention 代码

https://cloud.tencent.com/developer/article/1480510

2020-04-28 21:46:48 297

原创 attention 机制整理

在 Attention 机制引入之前，有一个问题大家一直很苦恼：长距离的信息会被弱化，就好像记忆能力弱的人，记不住过去的事情是一样的。attention 的引入，在传统的seq2seq模型中，无法体现在一个序列句子中不同部分的关注度传统的seq2seq，输出y对输入序列x1,x2,x3...没有区分，没有辨识度，下图二中我们引入了attention机制，每个输出的词y受输入X1,X2,X...

2020-04-28 21:39:21 1016

转载 Batch Size大小对训练过程的影响

（1）不考虑Batch Normalization的情况下，batch size的大小影响了深度学习训练过程中的完成每个epoch所需的时间和每次迭代(iteration)之间梯度的平滑程度。对于一个大小为N的训练集，如果每个epoch中mini-batch的采样方法采用最常规的N个样本每个都采样一次，设mini-batch大小为b，那么每个epoch所需的迭代次数(正向+反向)为,因此完...

2020-04-22 20:12:50 2186

转载 tensorflow学习——tf.train.Supervisor()与tf.train.saver()

tensorflow学习——tf.train.Supervisor()与tf.train.saver() 1、tf.train.Supervisor()import tensorflow as tfimport numpy as npimport oslog_path = 'ckptdir/'log_name = 'liner.ckpt'x_data = np.rando...

2019-01-10 15:51:16 643

转载 tensorflow.nn.bidirectional_dynamic_rnn()

https://blog.csdn.net/wuzqChom/article/details/75453327def bidirectional_dynamic_rnn(cell_fw, # 前向RNNcell_bw, # 后向RNNinputs, # 输入sequence_length=None,# 输入序列的实际长度（可选，默认为输入序列的最大长度）initial_state_...

2018-07-19 16:30:38 197

原创 prthon

def ss(ax=True): print("hah") def f(word): print("qq") if ax: print("q") return "aa" return fif __name__ == "__main__": gg=ss(ax=True) gg...

2018-07-18 17:04:30 311

转载池化层（pooling)和全连接层(dense)

有最大值池化和均值池化。1、tf.layers.max_pooling2dmax_pooling2d( inputs, pool_size, strides, padding='valid', data_format='channels_last', name=None)inputs: 进行池化的数据。pool_size: 池化的核大小(pool_...

2018-07-13 17:49:56 2569

转载神经网络中BP算法的原理与Python实现

http://www.sohu.com/a/148526237_697750 原文地址梯度下降和链式求导法则假设我们有一个函数J(w)，如下图所示。梯度下降示意图现在，我们要求当 w 等于什么的时候，J(w) 能够取到最小值。从图中我们知道最小值在初始位置的左边，也就意味着如果想要使 J(w) 最小，w的值需要减小。而初始位置的切线的斜率a > 0（也即该位置对应的导数大于0），w = w...

2018-07-10 15:36:48 1354

转载 tf.app.flags

深度学习神经网络往往有过多的Hyperparameter需要调优，优化算法、学习率、卷积核尺寸等很多参数都需要不断调整，使用命令行参数是非常方便的。有两种实现方式，一是利用python的argparse包，二是调用tensorflow自带的app.flags实现。 tf定义了tf.app.flags，用于接受命令行传递参数，相当于接受argv。首先调用自带的DEFI...

2018-07-10 11:41:00 354

转载神经网络的训练集、测试集、验证集

训练集（Training set）作用是用来拟合模型，通过设置分类器的参数，训练分类模型。后续结合验证集作用时，会选出同一参数的不同取值，拟合出多个分类器。验证集(Cross Validation set)作用是当通过训练集训练出多个模型后，为了能找出效果最佳的模型，使用各个模型对验证集数据进行预测，并记录模型准确率。选出效果最佳的模型所对应的参数，即用来调整模型参数。如svm中的参数c和核函数等...

2018-07-09 15:25:57 30374

qq_37008037的博客