自然语言处理与深度学习
文章平均质量分 89
愉贵妃珂里叶特氏海兰
日拱一卒无有尽,功不唐捐终入海
展开
-
基于网络嵌入和语义表征的作者名消歧
0x01. 摘要在许多领域中,同名消歧一直被视为一个很有意义但具有挑战性的问题,如文献管理,社交网络分析等。对论文同名作者的消歧是指利用论文的信息,如标题,作者,作者机构,摘要,关键词等,通过一些方法将论文分配到正确的作者档案中。目前已经有很多研究者针对同名作者消歧问题提出了解决方法,这些方法主要包括利用论文信息进行基于规则的匹配,或者利用表示学习方法,对论文信息进行表征学习,然后利用聚类方法,如层次聚类,DBSCAN等对这些表征向量进行聚类,使得相似的论文聚成一簇,不相似的论文被分到不同的簇中。本文提原创 2021-05-18 23:05:27 · 1090 阅读 · 3 评论 -
Bi-Directional Attention Flow (BiDAF)机器阅读理解模型
https://zhuanlan.zhihu.com/p/133250669https://cloud.tencent.com/developer/article/1523768https://blog.csdn.net/weixin_41332009/article/details/112758665?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162089304316780357234709%2522%252C%2522scm%25原创 2021-05-13 17:22:13 · 259 阅读 · 0 评论 -
自然语言处理 - ELMo
1. 提出背景在2013年的word2vec及2014年的GloVe的工作中,每个词对应一个vector,对于多义词无能为力。ELMo的工作对于此,提出了一个较好的解决方案。不同于以往的一个词对应一个向量,是固定的。在ELMo世界里,预训练好的模型不再只是向量对应关系,而是一个训练好的模型。使用时,将一句话或一段话输入模型,模型会根据上下文来推断每个词对应的词向量。这样做之后明显的好处之一就是对于多义词,可以结合前后语境对多义词进行理解。比如apple,可以根据前后文语境理解为公司或水果。ELMO,..原创 2021-05-13 15:59:58 · 394 阅读 · 0 评论 -
U-Net论文阅读(逐句翻译+精读)
U-Net最初是一个用于二维图像分割的卷积神经网络,分别赢得了ISBI 2015细胞追踪挑战赛和龋齿检测挑战赛的冠军. U-net是基于全卷积网络拓展和修改而来,网络由两部分组成:一个收缩路径(contracting path)来获取上下文信息以及一个对称的扩张路径(expanding path)用以精确定位。下面就来精读一下这篇论文吧~1. AbstractThere is large consent that successful training of deep networks requir原创 2021-04-28 14:25:43 · 3785 阅读 · 0 评论 -
自然语言处理 - Transformer 到 BERT
先修知识:self-attention 到 Transformer:https://blog.csdn.net/weixin_41332009/article/details/1144417081. BERT简介Bidirection: BERT的整个模型结构是双向的。Encoder: 是一种编码器,BERT只是用到了Transformer的Encoder部分。Representation: 做词的表征。Transformer: Transformer是BERT的核心内部元素。BERT的基本思原创 2021-03-07 17:50:20 · 619 阅读 · 0 评论 -
自然语言处理 - Self-attention 到 Transformer
先修知识:RNN https://blog.csdn.net/weixin_41332009/article/details/114023882?spm=1001.2014.3001.5501RNN 变种https://blog.csdn.net/weixin_41332009/article/details/114044090?spm=1001.2014.3001.5501Seq2seq+attention https://blog.csdn.net/weixin_41332009/articl原创 2021-03-06 19:29:18 · 622 阅读 · 0 评论 -
深度学习 - 卷积神经网络综述
1. 卷积神经网络概念卷积神经网络(CNN)是一种前馈神经网络,它由若干卷积层和池化层组成,尤其在图像处理方面CNN的表现十分出色。1962年,Hubel和Wiesel通过对猫脑视觉皮层的研究,首次提出了一种新的概念“感受野”,感受野是卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。再通俗点的解释是,特征图上的一个点对应输入图上的区域。1989年,LeCun结合反向传播算法与权值共享的卷积神经层发明了卷积神经网络,并首次将卷积神经网络成功应用到美国邮局的手原创 2021-02-27 19:42:20 · 3327 阅读 · 0 评论 -
自然语言处理 - 机器问答
数据集Stanford Question Answering Dataset (SQuAD): extractive question answering (从文章中摘取一串字符作为答案)Motivation(information retrieval)History of Question AnsweringEvaluation原创 2021-01-23 10:57:46 · 481 阅读 · 0 评论 -
自然语言处理 - 机器翻译,Seq2seq,Attention
本文翻译和精简自 Stanford cs224n lec081. Seq2seq1.1 seq2seq的训练可以看出,整个seq2seq模型分为两大部分:Encoder RNN和Decoder RNN。在Encoder RNN部分,先将待翻译的原文经过一个RNN (这里可以是vanilla RNN, LSTM,GRU等等),并且使用最后一个隐藏状态作为整句话的encoding表示,作为Decoder RNN的初始隐藏状态输入到Decoder RNN中去。在Decoder RNN部分,每个time原创 2021-02-26 22:08:12 · 646 阅读 · 0 评论 -
自然语言处理 - 梯度消失和RNN变种 (LSTM, GRU, 双向RNN, 多层RNN)
本文翻译和精简自 Stanford cs224n lec 07.1. 梯度消失和梯度爆炸1.1 梯度消失1.1.1 梯度消失的产生原因以最简单的网络结构为例,假如有三个隐藏层,每层的神经元个数都是1,且对应的非线性函数为 yi=σ(zi)=σ(wixi+bi)y_i=\sigma (z_i) = \sigma(w_ix_i+b_i)yi=σ(zi)=σ(wixi+bi), 如下图:引起梯度消失的“罪魁祸首”其实就是激活函数sigmoid:σ(x)=11+e−x\sigma(x)=原创 2021-02-26 13:31:39 · 677 阅读 · 0 评论 -
自然语言处理 - Language model和RNN
本文翻译和精简自stanford cs224n lec 6.1. Language Model通俗的说,language model就是用来预测下一个出现的词的概率,即:P(x(t+1)∣x(t),x(t−1),...x(1))P(x^{(t+1)}|x^{(t)},x^{(t-1)},...x^{(1)})P(x(t+1)∣x(t),x(t−1),...x(1))1.1 统计学方法:n-gram language model简化:一个词出现的概率只和它前面的n-1个词有关系,这就是"n-gram原创 2021-02-24 20:19:51 · 430 阅读 · 0 评论 -
自然语言处理 - GloVe
先修知识:潜在语义分析 LSAWord2vec看上一讲的文章:https://blog.csdn.net/weixin_41332009/article/details/1139205801. GloVe模型的提出思想潜在语义分析使用的 SVD 这种count based模型与Word2Vec 这种 direct prediction模型,它们各有优缺点。Count based模型 优点训练快速有效的利用了统计信息 缺点对于高频词汇较为偏向(disproportionate im原创 2021-02-24 10:40:20 · 464 阅读 · 0 评论 -
自然语言处理 - word2vec
本文翻译和精简自Stanford cs224n lec1+lec21. 如何表示词语的含义?1.1 Wordnetwordnet依靠专家的知识,建立了同义词(synonym)和IS-A关系词(hypernym).使用方法:见https://blog.csdn.net/King_John/article/details/80252594但是,wordnet的缺点是显而易见的。不能把握词语细微的差别。如"proficient"和"good"在wordnet中是同义词,但是它们在不同语境下意思未必完全原创 2021-02-23 21:08:44 · 482 阅读 · 1 评论