深度学习
文章平均质量分 90
十里清风
星光不问赶路人,岁月不负有心人
展开
-
FLAT:使用Transformer引入词汇信息增强中文NER(Chinese NER Using Flat-Lattice Transformer)
文章目录1 引言2 背景3 模型3.1 转换格子为扁平结构3.2 范围的相对位置编码4 实验4.1 实验设置4.2 整体性能4.3 全连接结构的优势4.4 FLAT效率4.5 FLAT的提升4.6 BERT兼容性【论文链接】:FLAT: Chinese NER Using Flat-Lattice Transformer近年来,已证明引入词汇信息的字词格子结构能够有效提升中文NER任务,然而,格子结构复杂、多变,多数现有的基于格子结构的模型难以利用多GPU并行计算,并且推理速度较慢。本文提出FLAT翻译 2021-01-06 02:20:57 · 2360 阅读 · 0 评论 -
图卷积神经网络(GCN)论文笔记与Geometric源码解释
1 引言主要解决问题图半监督分类问题(如引用网络)。一般解决方案及缺点使用确定形式的基于图的正则化平滑标签信息,如在损失函数中使用一个拉普拉斯项:L=L0+λLreg , with Lreg =∑i,jAij∥f(Xi)−f(Xj)∥2=f(X)⊤Δf(X),(1)\mathcal{L}=\mathcal{L}_{0}+\lambda \mathcal{L}_{\text {reg }}, \quad \text { with } \quad \mathc原创 2020-12-14 15:18:58 · 1520 阅读 · 0 评论 -
GNNs综述:图神经网络的综合调查(A Comprehensive Survey on Graph Neural Networks)
文章目录I. 引言II. 背景和定义A. 背景最近一些年,深度学习彻底改变了许多机器学习任务,从图像分类、视频处理到语音识别、自然语音理解,这些任务中的数据通常可在欧式空间中表示。然而,有越来越多应用的数据是从非欧式空间中生成,并以物体之间具有复杂关系和依赖的图表示。图数据的复杂性给现有机器学习算法施加了重大挑战。最近,涌现很多扩展机器学习方法处理图数据的研究。在这份调查中,我们提供了图神经网络(graph neural networks,GNNs)在数据挖掘和机器学习领域的综述。我们提出一种分类,将翻译 2020-12-11 02:51:51 · 1830 阅读 · 0 评论 -
TableBank: 表格检测和识别基准数据集(A Benchmark Dataset for Table Detection and Recognition)
TableBank表格检测表格识别原创 2020-12-07 18:29:30 · 4812 阅读 · 0 评论 -
GELU激活函数: 高斯误差线性单元
文章目录引言GELU公式GELU实验【Reference】1. GAUSSIAN ERROR LINEAR UNITS (GELUS)引言早期网络使用二元阈值单元,sigmoid激活函数将二元阈值决策平滑,使得神经元可解释为发射率,并得以通过BP算法训练。随着网络深度增加,在训练神经网络时,sigmoid激活函数已被证实不如一些非平滑的非线性激活函数高效,如ReLU通常比sigmoid训练更快、收敛更快,ELUs允许ReLU输出负值,通常能够进一步加快训练速度。深度非线性网络可以很好地拟合数据,原创 2020-09-07 00:44:45 · 3568 阅读 · 6 评论 -
Xavier Glorot参数初始化: 理解训练Deep DNN的难点
许多实验表明,深层网络比浅层网络更有优势,但在2006年以前,深层网络难以训练,后来一些算法通过改进初始化方法或训练机制,成功深层网络。这里,我们的目标是更好理解,为何使用标准随机梯度下降难以优化参数随机初始化的深层网络?为何最近的一些算法能够训练深层网络?我们发现,由于sigmoid激活函数均值影响,它会将顶层隐藏层推向饱和(非线性单元饱和较少时往往更有益),因此不适合作为参数随机初始化网络的激活函数。惊奇的是,有时饱和单元能够在训练时自行缓慢地离开饱和区,并解释有时训练神经网络会看到训练停滞的原因。原创 2020-09-06 18:06:12 · 6130 阅读 · 0 评论 -
NTT Masque: 多风格生成式阅读理解(Multi-Style Generative Reading Comprehension)
RC研究领域多使用范围抽取式方法,生成式方法面临开放领域训练数据匮乏。本文提出多风格问答阅读理解摘要模型,从问句和多个段落生成指定风格的summary作为答案。多源摘要: 使用指针生成器机制从问句、多段落中生成多样化风格的答案,并扩展至Transformer,允许生不成器词表,或从问句、段落原文中复制信息生成答案;多风格学习: 控制答案输出样式,满足RC所有形式输出,引入风格化的人工token扩展指针生成器为条件解码器,给定风格下,每一步解码控制三个分布占解码输出的权重;问题形式化给定含JJJ个原创 2020-08-21 16:39:10 · 1071 阅读 · 0 评论 -
微软R-NET: 端到端、抽取式机器阅读理解问答模型
文章目录R-NET结构问句和段落编码Reference:1. R-NET: Machine Reading Comprehension with Self-Matching NetworksR-NET是端到端阅读理解QA神经网络模型,目的是从段落中抽取问句对应的答案区间。使用门控注意力RNNs,编码具有问句感知的段落词向量表示,通过自匹配注意力改善段落词向量表示。R-NET结构R-Net 共分为四部分:问句和段落编码(Question and Passage Encoder)、门控注意力循环网原创 2020-08-20 01:03:26 · 1548 阅读 · 0 评论 -
XLNet: 通用自回归预训练语言理解(Generalized Autoregressive Pretraining for Language Understanding)
文章目录引言提出的方法背景引言AR模型以前向或后向的方式建模语言模型p(x)=∏t=1Tp(xt∣x<t)orp(x)=∏t=T1p(xt∣x>t)p(\bm x)=\prod\nolimits_{t=1}^Tp(x_{t}|\bm x_{<t})\quad or\quad p(\bm x)=\prod\nolimits_{t=T}^1p(x_{t}|\bm x_{>t})p(x)=∏t=1Tp(xt∣x<t)orp(x)=∏t=T1p(xt∣x>t原创 2020-08-11 23:18:51 · 854 阅读 · 0 评论 -
Transformer-XL: 非固定长度上下文的注意力语言模型(Attentive Language Models Beyond a Fixed-Length Context)
Transformers可潜在地学习长期依赖关系,但受到固定上下文的限制,当待处理的文本长度超过固定长度时:训练阶段,需将输入文本分割成不同分段,不同分段独立训练,由于分段未考虑语义边界,可能造成模型缺乏上下文信息预测分段中的前几个字符,产生上下文碎片问题;预测阶段,每次移动一个输入单元,引入大量重复计算,预测效率低;Transformer-XL基于 循环分段机制 和 相对位置编码,克服vanilla Transformers的固定上下文长度的缺陷,并能够解决分段造成的上下文碎片问题。Transf原创 2020-08-10 14:53:43 · 458 阅读 · 0 评论 -
【论文解读】VAE: Auto-Encoding Variational Bayes(变分自编码器)
基于潜变量的生成模型模型联合概率分布可表示为pθ(x,z)=pθ(x∣z)pθ(z)p_{\theta}(x,z)=p_\theta(x|z)p_\theta(z)pθ(x,z)=pθ(x∣z)pθ(z),模型的生成过程为z∼pθ(z) ⟹ x∼pθ(x∣z)z\sim p_\theta(z) \implies x\sim p_\theta(x|z)z∼pθ(z)⟹x∼pθ(x∣z)考虑一个独立同分布数据集X={x(i)}i=1NX=\{x^{(i)}\}_{i=1}^NX={原创 2020-06-29 16:17:03 · 7066 阅读 · 0 评论 -
生成对抗网络(Generative Adversarial Nets, GANs)
GANs生成器generator和判别器discriminator均使用多层感知机。定义输入噪声先验分布pz(z)p_z(z)pz(z),生成器Gz(z;θg)G_z(z;\theta_g)Gz(z;θg)将其映射至真实数据分布。判别器D(x;θd)D(x;\theta_d)D(x;θd)输出标量,表示数据来自于真实分布的概率。训练判别器,使之尽可能区分输入来自于真实样本还是生成器生成样本;训练生成器,尽可能使判别器对其输出认为是来自于真实样本。因此,生成器和判别器互相对抗,优化判别器降原创 2020-06-24 00:43:59 · 572 阅读 · 0 评论 -
【论文解读】Deep Biaffine Attention for Neural Dependency Parsing(基于深层双仿射注意力的神经网络依存解析)
文章目录代码实现:github参考文献:https://www.hankcs.com/nlp/parsing/deep-biaffine-attention-for-neural-dependency-parsing.html原创 2020-06-22 09:26:11 · 6966 阅读 · 2 评论 -
Attention机制(Bahdanau attention & Luong Attention)
传统seq2seq模型中encoder将输入序列编码成一个context向量,decoder将context向量作为初始隐状态,生成目标序列。随着输入序列长度的增加,编码器难以将所有输入信息编码为单一context向量,编码信息缺失,难以完成高质量的解码。注意力机制是在每个时刻解码时,基于当前时刻解码器的隐状态、输入或输出等信息,计算其对输入序列各位置隐状态的注意力(分数)并加权生成context向量用于当前时刻解码。引入注意力机制,使得不同时刻的解码能够关注不同位置的输入信息,提高预测准确性。原创 2020-06-13 16:52:14 · 5211 阅读 · 0 评论 -
关系抽取之分段卷积神经网络(PCNN)
远程监督关系抽取Piecewise Convolutional Neural Networks (PCNNs) with Multi-instance Learning远程监督关系抽取的难题之一是训练集问题,一般使用远程监督解决,即假设若知识库中两个实体具有某种关系,则任何包含这两个实体的句子都具有这种关系。下图为使用远程监督自动标注数据的实例,其中第一句标注正确,而第二句标注错误。远程监督是快速获取关系抽取训练集的有效方法,但其有两个缺点:远程监督假设过于强烈,易标注错误,引入噪声数据;原创 2020-06-08 00:29:59 · 8142 阅读 · 5 评论 -
Tensorflow2.x:使用RNNs预测温度时间序列(时间序列数据转为tf输入流)
本文使用RNNs预测气温,数据集使用weather time series dataset,该数据集包含14中不同特征,如气温、气压、湿度等,数据的统计间隔为10分钟,共包含2009年至2016年共计约42w数据。根据输入特征数、输出序列长度不同,本文使用三种实现:Simple LSTM Model: 单一特征(温度)预测未来单一时刻的温度;多特征(温度、湿度和气压)预测未来单一时刻的温度多特征(温度、湿度和气压)预测未来多个时刻的温度;本文为Tensorflow官方指南学习笔记,自己整理的完原创 2020-05-20 19:49:27 · 1857 阅读 · 0 评论 -
层标准化详解(Layer Normalization)
层标准化可以很有效地稳定动态神经网络的隐藏状态。训练和测试处理方式一致;为什么Batch Normaization难以应用于RNNs?Batch Normalization使用mini-batch的均值和标准差对深度神经网络的隐藏层输入附加标准化操作,可有效地提升训练速度。对于前向神经网络应用Batch Norm,使用简单SGD优化器,训练速度也能有较大提升。BN的效果受制于batch的大小,小batch未必能取得预期效果;对于前向神经网络可以很直接地应用BN,因为其每一层具有固定的神经原创 2020-05-17 19:18:57 · 39392 阅读 · 5 评论 -
批标准化详解(Batch Normalization for Reducing Internal Covariate Shift)
文章目录为什么要使用BN?怎样使用BN?如何有效地实现BN?如何训练和推理使用BN的网络?BN作用在神经元的输入侧还是输出侧?为什么BN网络可以使用更高的学习率?为什么BN网络自带正则化效果?Reference深度神经网络训练过程中,各网络层参数在不断变化,每层网络的输入分布不断变化 ,不同的输入分布可能需重新训练,此外,我们也不得不使用 较小的参数初始化、较小的学习率 训练模型,避免网络输出陷入饱和区,造成BP算法的梯度消失,深度模型一般难以训练。作者称这种内部网络层输入分布变化的现象为“Intern原创 2020-05-17 13:29:04 · 547 阅读 · 0 评论 -
【论文解读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
前言BERT: Bidirectional Encoder Representations from Transformers.通过预训练的语言模型可有效地提升多数下游任务,处理下游任务(迁移学习)的方法大致分为两种:feature-based,such as ELMo,uses task-specific architectures that include the pre-trai...原创 2020-05-08 01:54:01 · 2100 阅读 · 0 评论 -
Win10环境下安装GPU版本Tensorflow
文章目录配置成功的环境Win10 x64 + GTX 960MCUDA v10.0cuDNN v7.6.5Anacoda 3 + python3.7虚拟环境tensorflow-gpu==1.14Tips配置成功的环境Win10 x64 + GTX 960M + CUDA v10.0 + cuDNN v7.6.5 + Anancoda 3 (env python3.7) + tensorfl...原创 2020-05-01 02:57:23 · 680 阅读 · 0 评论 -
自然语言处理:序列标注(BiLSTM-CRF)
文章目录Tagging SchemeBidirectional LSTM NetworksWhy use the CRF Networks?CRF NetworksBiLSTM-CRF networksEmission scoreTransition scoreDecodingLoss functionBi-LSTM-CRF NetworksReference:1. Bidirectional...原创 2020-04-30 21:33:47 · 1596 阅读 · 0 评论 -
自然语言处理:依存句法解析(Dependency Parsing)
文章目录Phrase Structure GrammarsDependency StructureDependency Grammar and Dependency StructureGreed Transition-Based ParsingWhy train a neural dependency parser?What kind of structures do human languag...原创 2020-04-29 16:00:07 · 8376 阅读 · 1 评论 -
机器翻译模型(MT、NMT、Seq2Seq with Attention)
seq2seq attention原创 2020-04-29 15:53:11 · 1935 阅读 · 0 评论 -
【论文解读】Attention Is All You Need(Transformer and Self-Attention)
self-attention, multi-head, positional encoding, residual connection, mask, transformer, tensorflow原创 2020-04-29 15:36:58 · 692 阅读 · 0 评论 -
基于时间的后向传播和RNN变体(BPTT、RNNs)
文章目录Backpropagation Through Time, BPTTVanishing and Exploding Gradients in Vanilla RNNsLong Short-Term Memory Networks, LSTMsPreventing Vanishing Gradients with LSTMsGradient clipping: solution for ex...原创 2020-04-29 15:22:17 · 358 阅读 · 0 评论 -
语言模型和循环神经网络(LM、RNNs)
文章目录Language ModelN-Gram Language ModelProblems with n-gram language modelGenerating text with n-gram language modelRecurrent Neural Networks Language ModelWindow-based neural networks modelA RNN Lang...原创 2020-04-29 15:03:52 · 760 阅读 · 0 评论 -
深度学习:词向量和句向量(Embedding)
文章目录Word VectorSkip-grams model with negative samplingContinuous Bag of WordsDocument VectorWord Vector词向量模型可表示为含有一层隐藏层的前向神经网络,词向量为输入层到隐藏层的参数,即参数矩阵的行向量.语料库总词数为|V|embedding后的单词维度为n输入层为n维向量输入层到隐藏...原创 2020-04-29 14:48:38 · 3018 阅读 · 0 评论 -
后向传播之参数优化、初始化(BP、Parameter Optimization and Initialization)
文章目录Gradient descentBack propagationVanishing gradients on sigmoidDying ReLUsParameter initializationFine-tuningGradient descentFor the perceptron model, and using mse lossy^=σ(μ)=σ(w⋅x),mse=12(y^−...原创 2020-04-29 12:38:29 · 388 阅读 · 0 评论 -
激活函数(ReLU、Sigmoid、Softmax)
文章目录LinearNon-linaritesSigmoidSoftmaxSoftmax and Multi-ClassificationLinear基于仿射变换的输出单元y^=w⊤x+b\hat{y}=\pmb w^\top\pmb x +by^=www⊤xxx+b,因其不具有非线性,这些单元一般称为线性单元.线性输出层常用于产生高斯分布均值:p(y∣x)=N(y;y^,I)p(y|...原创 2020-04-29 12:27:57 · 1325 阅读 · 1 评论 -
正则化防止过拟合(L1、L2、Dropout)
文章目录L1 RegularizationL2 RegularizationDifference of L1 and L2 RegularizationDropoutL1 RegularizationL′(θ)=L(θ)+λ2∣∣θ∣∣1,∣∣θ∣∣1=∣w1∣+∣w2∣+⋯L'(\pmb\theta) = L(\pmb\theta) + \frac{\lambda}{2}||\pmb\th...原创 2020-04-29 12:01:40 · 527 阅读 · 0 评论 -
数值优化之方向导数、梯度、牛顿法、SGD、Adagrad、RMSprop、Adam
方向导数、负梯度、SGD、Adagrad、RMSprop、Adam原创 2020-04-29 10:13:47 · 8765 阅读 · 0 评论