自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 多模态模型前沿研究(1)

多模态模型的前沿研究

2022-11-18 22:58:45 1938 1

原创 经典论文阅读(9)——XLNET

由于具有双向上下文建模的能力,BERT等基于自编码的预训练方法比基于自回归语言建模的预训练方法具有更好的性能然而。但由于依赖于用mask破坏输入,BERT忽略了mask位置之间的依赖关系,并遭受了训练前微调的差异。本文提出了一种广义的自回归预训练方法XLNet,该方法(1)通过最大化所有分解顺序排列的期望似然来实现双向上下文学习,(2)由于其自回归公式,克服了BERT的局限性。此外,XLNet集成了Transformer-XL的思想,这是最先进的自回归模型。AR自回归语言模型寻求用自回归模型估...

2022-01-26 17:10:58 1195

原创 经典论文阅读(8)——Transformer-XL

Transformer有学习长期依赖关系的潜力,但在语言建模设置中受到固定长度上下文的限制。我们提出了一种新的神经结构Transformer-XL,它可以在不破坏时间一致性的情况下,使学习依赖超出固定长度。它由段级递归机制和一种新的位置编码方案组成,不仅能够捕获长期依赖关系,而且还解决了上下文碎片问题。根据经验,LSTM语言模型使用平均200个上下文单词,有进一步的提升空间。在注意力机制中形成的词对之间的直接联系使长距离依赖学习成为可能,但由于上下文的长度是固定的,传统的Transformer...

2022-01-05 08:40:46 642

原创 经典论文阅读(7)——ALBERT

在对自然语言表示进行预训练时,增加模型大小通常可以提高下游任务的性能。然而,在某些情况下,由于GPU/TPU内存的限制和更长的训练时间,进一步增加模型变得更加困难。ALBERT提出了两种参数减少技术,以降低内存消耗,提高BERT的训练速度,并且利用了一种自我监督的loss对句子连贯性构建。第一个是分解的embedding参数化。通过将大的词汇表嵌入矩阵分解为两个小的矩阵,将隐藏层的大小与词汇表嵌入的大小分开。这种分离使得在不显著增加词汇表嵌入的参数大小的情况下更容易增加隐藏大小。第二种技术是跨层参...

2021-12-28 09:04:31 1722

原创 经典论文阅读(7)——NEZHA

论文位置:NEZHA: Neural Contextualized Representation for Chinese Language Understanding –arXiv VanityNEZHA基于BERT,并进行了一系列改进,包括作为一种有效的位置编码方案的功能相对位置编码、全字mask策略、混合精度训练和训练模型的LAMB优化。预训练NEZHA模型功能相对位置编码在基础Transformer的基础上,提出了一种参数相对位置编码,在相对位置编码方案中,注意得分的计...

2021-12-14 08:39:04 1246

原创 经典论文阅读(6)——ERNIE

在本文中,我们提出了一个称为ERNIE的模型,通过知识mask策略实现知识整合。除了基本的mask策略外,我们还使用了两种知识mask:短语级mask和实体级mask。Transformer编码器ERNIE使用多层Transformer编码器作为基本的encoder。Transformer可以通过自我注意捕获句子中每个token的上下文信息,并生成一系列上下文embedding。知识集成提出了一种多阶段知识mask策略,将短语级和实体级知识整合到语言表示中,而不是直接加入知...

2021-12-14 08:37:10 1744

原创 经典论文阅读(5)——RoBERTa

RoBERTa相较于BERT:(1)训练模型的时间更长,批量更大,数据更多;(2)移除下一句预测目标;(3)长序列训练;(4)动态改变应用于训练数据的mask模式。训练过程分析使用与相同配置的模型(L=12,H=768,A=12,110M参数)。静态mask和动态mask静态mask:为了避免每个epoch的mask模式相同,将训练数据复制10次,每个序列在40个epoch有10个不同的mask模式。动态mask:BERT在数据预处理时执行一次mask,使用静态mask。动...

2021-12-13 08:44:51 631

原创 经典论文阅读(4)——BERT

BERT依赖于所有层的上下文进行预训练,学习深度双向表征。屏蔽语言模型MLM随机屏蔽了输入中的一些标记,其目的是根据上下文预测被屏蔽的单词。MLM的目标是将表征融合上下文,以预训练一个深度双向Transformer。除了MLM,还用了一个“下一句预测”任务联合预训练文本对表示。输入表征一个输入token的表征为相应的token embedding、segment embedding、position embedding相加。预训练BERT利用MLM和NSP两个...

2021-12-06 18:02:28 422

原创 经典论文阅读(3)——Attention is all you need

递归模型通常沿着输入输出序列进行因子计算,这排除了训练样本的并行化,尤其是输入长序列时,因为内存限制了样本批处理。注意力机制通常对依赖关系建模,而不考虑输入输出序列中他们的距离。Transformer是第一个完全依靠自我注意来计算其输入和输出的表示而不使用序列对齐的rnn或卷积的转换模型。模型架构大多数神经序列转换模型用的是编码-解码结构,编码器将输入序列表征表征为连续表征,解码器在给定z的情况下生成序列。模型架构如下:encoderencoder包含6个独立层,...

2021-12-03 16:11:45 266

原创 经典论文阅读(2)——XGBoost

xgboost是基于梯度提升的树,公式如下:其中为CART回归树,每个叶子都有一个连续分数,拟合最终目标的loss函数如下,为预测值,为真实值,T为叶子节点个数,为叶子节点权重平方和。其中将loss进行泰勒公式展开,可以得到:最终得到每个叶子节点的权重为,而对应第t棵树的loss为,其中G为所有样本在该叶子节点的loss的一阶导数之和,H为所有样本在该叶子节点的loss的二阶导数之和。通常采用遍历得到树的结构,每次分裂的loss reduction:...

2021-11-15 17:24:51 1389

原创 经典论文阅读(1)——Informer

当解决长序列时间序列预测问题时,Transformer会存在三个问题:1)self attention的平方计算:self-attention中的原子点积,导致了每层时间和空间复杂度为2)长输入时堆叠层的内存瓶颈:J层编码/解码的堆叠使内存使用为,限制了模型在接收长序列输入时的可扩展性。3)预测长期输出的速度降低:Transformer的动态解码与RNN一样慢。本文的贡献如下: 提出了Informer提升长序列时间预测预测问题的预测能力; 提出了ProbSparse...

2021-11-15 17:18:14 3036

原创 GCN论文阅读与代码梳理(5)——STSGCN

时空影响图如下: 棕色箭头:每个节点都在同一时间步影响其相邻节点。 蓝色箭头:每个节点都在下一时间步影响自身。 绿色箭头:由于同步的时间相关性,每个节点可以再下一时间步影响其相邻节点。 提出STSGCN的原因: DCRNN、STGCN、ASTGCN提出了捕获时间和空间依赖关系的独立模块,但本文相信如果同时捕获时空关联将会更有效。 时空网络在时空维度上表现出异质性,即不同地点不同时间的交通流量会呈现不同的pattern,但之前的研究在不同的...

2021-11-11 16:39:14 2293

原创 GCN论文阅读与代码梳理(4)——GAT

本论文基于注意力的体系结构来执行图结构数据的节点分类。其思想是计算图中每个节点的隐藏表示,通过关注它的邻居,遵循自我注意策略。 图神经层 该层输入为一组节点特征,N为节点个数输出为在每个节点上执行自注意力机制:,该公式去掉了所有图结构信息,为加入图信息,本文使用masked attention,即仅关注节点i在图中的一阶邻居节点。1、用softmax对节点进行归一化:2、进阶的,attention机制用神经网络实现:使用multi-head attention,...

2021-11-09 12:15:04 888 1

原创 GCN论文阅读与代码梳理(3)——ASTGCN

ASTGCN包含三个独立分量,分别模拟交通流量的近期依赖性、日周期性和周周期性。主要贡献有: 通过空间注意力捕捉不同位置之间的空间相关性,通过时间注意力捕捉不同时间之间的时间相关性。 设计了时空卷积模块,包括空间图卷积和时间卷积; 在真实公路交通流量数据集上取得最好的效果。 模型架构如下: X_h是一段与预测周期直接相邻的历史时间序列 X_d是一段过去几天中与预测时间段相同的时间段时间序列 X_w是一段过去几周中与预测时间段...

2021-11-08 08:44:49 7444 10

原创 GCN论文阅读与代码梳理(2)——STGCN

本文提出了基于时空图卷积的网络,解决交通流量预测问题(中长期流量预测问题)。STGCN包含两个时空卷积核和一个输出层。时空卷积核包含一个时域门控卷积、一个空域门控卷积和一个时域门控卷积。 整体时空卷积核的代码如下: 注意到,第一个时域卷积核的激活函数为GLU,而空域卷积核和第二个时域卷积核的激活函数为relu。def st_conv_block(x, Ks, Kt, channels, scope, keep_prob, act_func='GLU'): ...

2021-10-28 17:02:27 4347 3

原创 GCN论文阅读与代码梳理(1)——AGCRN

传统基于GCN的流量预测需要通过距离或相似度定义邻接矩阵,预先定义的图不能包含关于空间依赖性的完整信息,与预测任务没有直接关系,这可能导致相当大的偏差。此外,如果没有适当的知识,这些方法无法适用于其他领域,使得现有的基于GCN的模型失效。因此,提出了DAGG进行图的自适应学习。通过两个自适应模块来增强GCN,以完成交通预测任务: Node Adaptive Parameter Learning (NAPL) module(节点自适应参数学习方法): Data Adaptiv..

2021-10-27 12:01:13 2541

转载 【机器学习】logistic回归的python实现

【机器学习】logistic回归的python实现导入包import timeimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn import preprocessing as pp%matplotlib inline读取文件import ospath = './da...

2018-11-22 22:07:11 299 1

原创 ubuntu安装teamviewer

1.下载teamviewer安装包teamviewer_12.0.90041_i386.deb2.命令行输入sudo dpkg -i teamviewer_12.0.90041_i386.deb  出现错误:dpkg: 处理软件包 teamviewer:i386 (--install)时出错: 依赖关系问题 - 仍未被配置正在处理用于 bamfdaemon (0.5.3~bzr0+16.04.20...

2018-04-14 15:38:46 248

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除