DL&NLP
fkyyly
这个作者很懒,什么都没留下…
展开
-
loss集合
hinge loss loss=output-output_y+self.margin#contains i=y #remove i=y items loss[torch.arange(0,y.size()[0]).long().cuda(),y.data.cuda()]=0 #max(0,_) loss[loss<0]=0原创 2021-04-13 21:11:29 · 282 阅读 · 0 评论 -
GCN
图卷积网络(Graph Convolutional networks, GCN) 简述1 背景卷积神经网络(CNN)的输入是图片等具有欧几里得结构的图结构,也就是这样的图:这样的“图”并不是广义上的“图”。我们经常需要提取广义的具有点和边的图的特征:2 问题描述我们的目标是提取出这种广义图结构的特征,进而完成一些任务,如标签补全等。3 解决思路在问题描述中我...转载 2020-02-13 22:05:39 · 4929 阅读 · 0 评论 -
集中模型公式速查
1 lstm2 GCN,其中A为图的邻接矩阵原创 2020-02-13 21:58:11 · 145 阅读 · 0 评论 -
匹配相关资源
https://nlp.stanford.edu/projects/snli/https://github.com/RaRe-Technologies/gensim-data/issues/32原创 2020-01-21 17:12:30 · 220 阅读 · 0 评论 -
treelstm
导读我们一步一步来。先说最基础的RNN结构:公式为:就一个简单的隐层h。但是RNN的缺点是会有梯度爆炸或者梯度消失问题。这里我就不详细解释了。下面推荐阅读有我之前的RNN,LSTM详细讲解,想更深一步了解的可以去看看。因为这个致命的问题,有人提出了LSTM网络,改善了RNN的缺点,我们来回顾下:重新添加了输入门i,输出门o,遗忘门f和记忆单元C,外加之前的一个隐层h(...转载 2020-01-10 17:18:15 · 3303 阅读 · 0 评论 -
bot相关NLP任务
https://gitee.com/wwfcoder/nlp_xiaojiang原创 2019-12-09 10:50:01 · 174 阅读 · 0 评论 -
文本分类中attention理解
《Hierarchical Attention Networks for Document Classification》。我把相关代码放到这里了: https://github.com/triplemeng/hierarchical-attention-model综述今天,基本上所有的NLP方面的应用,如果想取得state-of-art的结果,就必须要经过attention model的...转载 2018-09-07 18:42:04 · 10242 阅读 · 0 评论 -
Elmo NAACl 2018
Elmo NAACl 2018 Deep contextualized word representations 在AllenNLP的主页上有个单独的菜单(http://allennlp.org/elmo),一直不太了解为何将它单列出来,主要在AllenNLP的许多任务中如文本蕴含里面等已经用到了这个模型所产生的词向量。 1、论文原理 从其主页上的介绍可知,该论文来自NAACL...转载 2018-09-30 11:03:14 · 754 阅读 · 0 评论 -
Word2vec与Golve词向量的区别?词向量的判别评价指标?
Glove模型首先基于语料库构建词的共现矩阵,然后基于共现矩阵学习词向量。设共现矩阵为X,其元素为Xi,j表示在整个语料库中,词i和词j共同出现在一个窗口中的次数。https://ilewseu.github.io/2018/07/08/%E8%AF%8D%E5%90%91%E9%87%8F/http://licstar.net/archives/tag/%E8%AF%8D%E5%90...转载 2018-11-20 14:02:04 · 4638 阅读 · 0 评论 -
NLP预训练语言模型
最近,在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项NLP任务上都获得了不错的提升,广泛受到了各界的关注。就此,我将最近看的一些相关论文进行总结,选取了几个代表性模型(包括ELMo [1],OpenAI GPT [2]和BERT [3])和大家一起学习分享。1. 引言在介绍论文之前,我将先简单介绍一些相关背景知识。首先是语言模型(Language Model),语言模型简单来...转载 2018-12-12 17:53:20 · 1530 阅读 · 1 评论 -
word2vec原理和代码介绍
就是随机生成一个[1,M-1]的数字,然后通过上图中的下方映射到上面的单词w。https://blog.csdn.net/itplus/article/details/37998797http://www.cnblogs.com/neopenx/p/4571996.html...原创 2019-01-18 11:58:15 · 188 阅读 · 0 评论 -
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是Bert具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似的两阶段模...转载 2019-01-21 14:04:27 · 219 阅读 · 0 评论 -
Attention总结
1 定义首先,在生成target side的states时,所有context vectors 都会被当做输入。 其次,并不是所有context都对下一个状态的生成产生影响。例如,当翻译英文文章的时候,我们要关注的是“当前翻译的那个部分”,而不是整篇文章。“Attention”的意思就是选择恰当的context并用它生成下一个状态。 而注意力(Attention)机制是自然语言处理领域一个...原创 2018-10-14 21:57:21 · 2976 阅读 · 3 评论 -
文本分类
一、传统文本分类方法 文本分类问题算是自然语言处理领域中一个非常经典的问题了,相关研究最早可以追溯到上世纪50年代,当时是通过专家规则(Pattern)进行分类,甚至在80年代初一度发展到利用知识工程建立专家系统,这样做的好处是短平快的解决top问题,但显然天花板非常低,不仅费时费力,覆盖的范围和准确率都非常有限。后来伴随着统计学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习...转载 2018-09-07 16:56:06 · 7348 阅读 · 0 评论 -
CNN句子建模
本文将大概总结一下最近CNN在NLP中的句子建模(或者句子表示)方面的应用情况,主要阅读了以下的文献:Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.Kalchbrenner N, Grefenstette E, Bluns转载 2018-01-12 14:44:48 · 2207 阅读 · 0 评论 -
1 语言模型和词向量
----------------------------大纲--------------------------1 原理1.1 语言模型1.2ngram1.3 神经网络语言模型 当前词wt 依赖于其前面的词w1:(t−1) ,估计P(Wt|W1:(t−1)) 转化为分类问题,降低语言模型困惑度1.4 word2vec 不通过优化语言模型而直接学习词嵌入 ...原创 2018-01-09 13:11:57 · 2016 阅读 · 0 评论 -
2 语言模型和词向量 tensorflow词向量
----------------------------大纲--------------------------1 随着模型不断更新2 直接使用预先训练好的词向量如word2vec, glove3 测试文件向量化--------------------------------------------------------------省去数据读取以及预处理模原创 2018-01-10 00:52:24 · 1873 阅读 · 1 评论 -
为什么用CNN做NLP
一、引例我们首先来看这么一个问题,假设我们需要对句子做情感上的分类。传统的词袋模型或者连续词袋模型都可以通过构建一个全连接的神经网络对句子进行情感标签的分类,但是这样存在一个问题,我们通过激活函数可以让某些结点激活(例如一个句子里”not”,”hate”这样的较强的特征词),但是由于在这样网络构建里,句子中词语的顺序被忽略,也许同样两个句子都出现了not和hate但是一个句子(I do not h...转载 2018-02-26 20:22:03 · 2166 阅读 · 0 评论 -
多种文本分类模型tensoflow实现
导读:文本分类是NLP领域一项基础工作,在工业界拥有大量且丰富的应用场景。传统的文本分类需要依赖很多词法、句法相关的human-extracted feature,自2012年深度学习技术快速发展之后,尤其是循环神经网络RNN、卷积神经网络CNN在NLP领域逐渐获得广泛应用,使得传统的文本分类任务变得更加容易,准确率也不断提升,本文主要内容整理自网络,汇集了2014年以来,DL在文本分类领域相关...转载 2018-08-02 17:15:50 · 2497 阅读 · 0 评论 -
结合代码解释RNN
TensorFlow中RNN实现的正确打开方式https://zhuanlan.zhihu.com/p/28196873https://blog.csdn.net/kyang624823/article/details/79682100TensorFlow中RNN实现的正确打开方式一个完整的、循序渐进的学习TensorFlow中RNN实现的方法。这个学习路径的曲线较为平缓,应该可以...转载 2018-09-10 17:25:17 · 6148 阅读 · 0 评论 -
CNN
-------------------------------大纲---------------------------------------------1 一些常见关键字含义2 推导3 一般使用过程4 tensorflow中具体使用 ---------------------------------------------------------------------...原创 2018-01-12 11:58:11 · 432 阅读 · 0 评论