自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

lpty的博客

走进科学

原创 Some papers about NLP

Attention 1、Neural Machine Translation by Jointly Learning to Align and Translate 2、Effective Approaches to Attention-based Neural Machine Translat...

2019-01-14 19:38:44 455 0

原创 Siamese CBOW: Optimizing Word Embeddings for Sentence Representations

引言 Siamese CBOW,来自Tom Kenter等的于2016年发的论文:Siamese CBOW: Optimizing Word Embeddings for Sentence Representations 作者提到,当前的很多句向量的表示方法都是简单的用词向量的加和平均,这种方法表...

2019-04-15 17:29:48 309 0

原创 DECOUPLED WEIGHT DECAY REGULARIZATION

引言 Adam作为一个常用的深度学习优化方法,提出来的时候论文里的数据表现都非常好,但实际在使用中发现了不少问题,在许多数据集上表现都不如SGDM这类方法。 后续有许多工作针对Adam做了研究,之前整理过关于优化算法的发展历程:从Stochastic Gradient Descent到Adap...

2019-04-09 17:20:59 535 0

原创 Reducing BERT Pre-Training Time from 3 Days to 76 Minutes

引言 Bert在工业使用中表现相当优异,但是预训练时间非常的长。Bert的作者公开的记录是用了16块TPU训练了三天。 本论文就是针对训练时间上进行的优化,提出了LAMB优化方式,在不损失训练精度的情况下,将BERT的训练时间缩短到了76分钟,如下:

2019-04-09 11:24:08 272 0

原创 Deep contextualized word representations

引言 这是2018年NAACL上的Best Paper,即是大名鼎鼎的ELMo,原文地址:https://arxiv.org/pdf/1802.05365.pdf 对比传统Word2Vec这种形式的词向量,本文提出的模型是一种动态模型。在以往的词向量表示中,词都是一种静态的形式,无论在任何的上下...

2019-04-04 09:49:04 347 0

原创 Identity Mappings in Deep Residual Networks

引言 ResNet来自2015年he等人的paper:Deep Residual Learning for Image Recognition

2019-03-21 10:23:36 295 0

原创 从Stochastic Gradient Descent到Adaptive Moment Estimation

引言 深度学习优化算法,基本的发展历程就是: SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -&a...

2019-02-18 14:47:25 698 0

原创 Taylor Formula与Gradient Descent

Taylor Formula 泰勒公式,它的一般形式如下: 一般希望将复杂形式的函数用较为简单的方式来表示,另一种表述便是,用量上的复杂来解决质上的困难。 那为什么泰勒展开式是这种形式的? 上面说要用简单的形式表示复杂函数,那么如何选择表达式呢?类比切圆法,是不是可以用局部的线性近似来表示整体,...

2019-02-15 15:14:00 173 0

原创 Internal Covariate Shift与Normalization

引言 Batch norm在深度学习中已经是一个常用且有效的方法,用来加速网络收敛及防止梯度消失等神经网络常见的问题,那么batch norm为什么有效呢? 从源头出发,神经网络难以训练的原因是什么? Internal Covariate Shift 深度神经网络涉及到很多层的叠加,而每一层的参...

2019-02-13 15:02:39 5566 5

原创 An Information Retrieval Approach to Short Text Conversation

引言 Hang Li 等发在2014年arxiv上的文章,原文地址:https://arxiv.org/pdf/1408.6988.pdf 基于新浪微博的数据集做的短文本单轮QA,从论文名可以看到,这是基于检索的方式做的,作者称之为short text conversation (STC)。大概流...

2019-02-01 17:10:34 395 0

原创 Protege、D2RQ、JENA与SPARQL

引言 关于的知识图谱的相关概念在从语义网络到知识图谱这篇博文中有简单的描述,下面介绍一下在知识图谱实际使用中的一些工具。 数据 来源于The Movie Database (TMDb)抓取的电影数据,统计如下: 演员数量:505人 电影数量:4518部 电影类型:19类 人物...

2019-01-25 19:12:58 1876 1

原创 从语义网络到知识图谱

引言 知识图谱,目前来说也没有一个特别明确的定义,“Exploiting Linked Data and Knowledge Graphs in Large Organisations”书中的描述如下: A knowledge graph consists of a set of inte...

2019-01-24 17:07:16 3164 0

原创 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

引言 Google在2018年发出来的论文,原文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

2019-01-15 19:29:32 585 0

转载 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

原文:张俊林–从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 引言 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗? 其实并没有,从模型创...

2019-01-11 19:55:50 250 0

原创 Attention Is All You Need

引言 google 在2017年发布的一篇论文,即是transformer,原文地址:Attention Is All You Need

2019-01-07 21:59:16 495 0

原创 ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs

引言 Wenpeng Yin等发表在arXiv上的论文,原文地址:地址 这应该是第一篇提出Attention用于CNN的文章,主要用来解决句子对的问题,作者在answer selection (AS),、paraphrase identification(PI)、textual entailm...

2019-01-02 17:36:34 527 0

原创 Effective Approaches to Attention-based Neural Machine Translation

引言 Minh-Thang Luong等在2015年arXiv上的论文,原文地址:地址 这是继Bahdanau提出attention用于NLP的后续工作,作者提出了两种新的,相对于前面工作简单但有效的网络,一种称为global方法,实现上与Bahdanau使用的方式很相似,在每一次生成目标词时,都...

2018-12-28 10:45:54 769 0

原创 Neural Machine Translation by Jointly Learning to Align and Translate

引言 Dzmitry Bahdanau等人在2016年arXiv上的paper,原文地址arXiv:1409.0473v7 [cs.CL] 19 May 2016 这篇应该是最早将Attention机制用到NLP中的论文,作者提到神经网络机器翻译的目标是训练一个单一庞大的网络去直接生成翻译结果,相...

2018-12-19 17:33:04 214 0

原创 A Convolutional Neural Network for Modelling Sentences

引言 Nal Kalchbrenner等人在2014年arXiv上的paper,原文地址:arXiv:1404.2188v1 [cs.CL] 8 Apr 2014。 自然语言处理的基础问题在于句子的语义表示,其他特定的任务如分类等都是在语义表示的基础上进行高层次的处理,所以如何对句子进行表达就成为...

2018-12-11 23:53:30 1136 0

原创 Recurrent Neural Network for Text Classification with Multi-Task Learning

引言 Pengfei Liu等人在2016年的IJCAI上发表的论文,论文提到已存在的网络都是针对单一任务进行训练,但是这种模型都存在问题,即缺少标注数据,当然这是任何机器学习任务都面临的问题。 为了应对数据量少,常用的方法是使用一个无监督的预训练模型,比如词向量,实验中也取得了不错的效果,但...

2018-12-05 17:34:04 1248 0

原创 A Sensitivity Analysis of Convolutional Neural Networks for Sentence Classification

引言 Ye Zhang在2016年挂在arXiv上的论文,从名字大概可以看出来,这是一篇CNN调参指南。 概述 模型方面用的是单层CNN,主要是CNN用做文本分类方面的研究,模型结构如下所示: 上述模型来自Convolutional Neural Networks for Sentence Cl...

2018-11-19 23:52:09 1559 0

原创 Convolutional Neural Networks for Sentence Classification

引言 这是Yoon Kim发表于2014年的EMNLP上的论文,也就是经常说到的TextCNN。 CNN一开始提出来是作为图像或者语音这种特征连续任务的处理方式,这篇论文则是尝试将CNN用于文本这种离散型的任务中。 模型 前面说到CNN是处理连续型数据的,所以对于文本而言,就需要进行离散特...

2018-11-15 17:19:50 179 0

原创 Cross-Entropy Error、Classification Error、Mean Squared Error

一、引言 神经网络中,损失函数的选择希望能够有以下效果: 1、不同的预测结果能够产生不同的损失,越好的结果损失要越小 2、在损失较大的情况下,学习的速率要相对较快 二、对比 1、区分性 假设有以下两组数据,computed代表计算出来的概率,targets代表实际的标签,correct代表分类结果...

2018-11-13 19:19:18 439 0

原创 Linux下编译安装gcc

引言 1、gcc下载地址:ftp://ftp.mirrorservice.org/sites/sourceware.org/pub/gcc/releases 2、GMP、MPFR、MPC下载地址:ftp://gcc.gnu.org/pub/gcc/infrastructure/ 步骤 1、...

2018-11-08 17:19:47 151 0

原创 Monte Carlo Integration

引言 Monte Carlo Integration,即蒙特卡罗积分,这是一种很常用的数学方法,原理上也可以很直观的列出来 内容 (一)投点法求定积分 如下图,求函数f(x)从a到b的定积分。用面积为A的矩型罩在函数的积分区间上,随机地向这个矩形框里面投点,其中落在函数f(x)下方的点为绿...

2018-11-06 16:18:39 1105 0

原创 Linear classifiers do not share parameters among features and classes

一、概述 标题来自Bag of Tricks for Efficient Text Classification,就是fasttext这篇文章 二、简析 1、解析 下述截图来自:https://datascience.stackexchange.com/questions/30605/what-i...

2018-11-01 10:23:25 102 0

原创 ORACLE锁表暴力解决方法

一、概述 关于oracle锁详见:https://www.cnblogs.com/zhoading/p/8547320.html 下述方法为处理ORA-00054:资源正忙,要求指定NOWAIT,这种问题。 二、方法 1、找出被锁对象 select l.session_id,o.owner,o.o...

2018-10-19 10:45:46 157 0

原创 linux下的缓存机制

一、缓存 在linux系统下,free命令可以看到系统内存使用情况: 上图各个参数解释如下: 1、Mem total:总内存 used:已使用的内存 free:空闲的内存 shared:当前已废弃内存 buffers Buffer:I/O缓存,用于内存和硬盘的缓冲 cache...

2018-10-11 16:56:27 184 0

原创 GRU与LSTM

一、前言 GRU是LSTM的一种变体,综合来看: 1、两者的性能在很多任务上不分伯仲。 2、GRU 参数相对少更容易收敛,但是在数据集较大的情况下,LSTM性能更好。 3、GRU只有两个门(update和reset),LSTM有三个门(forget,input,output) LSTM还...

2018-09-23 14:34:17 5944 1

原创 新词发现:中文新词识别技术简介

一、前言 新词识别,也可称为未登录词识别,严格来说,新词是指随时代发展而新出现或旧词新用的词,如:给力、山寨等;而未登录词是在词典中未存在的词,但实际使用中,两者并没有严格的区分,下文均以新词指代。 在之前的博文中提到,中文分词中存在两个问题,未登录词识别和歧义切分,具体在《统计自然语言处理》...

2018-08-15 17:51:44 6332 1

原创 聚类:对聚类性能的评价

一、前言 对于有监督的学习方法,我们可以找到许多评价指标,但是要评价无监督算法的质量,相对来说比较少有提及,正好最近在做一个相关的工作,稍微整理一下。 二、方法 下述提及方法均以k-means算法为基础, 不同聚类方法有不同的评价指标,这里说说k-means常用的两种方法 1、肘部法则–E...

2018-07-10 21:06:00 4306 0

原创 词向量:如何评价词向量的好坏

一、前言 词向量、词嵌入或者称为词的分布式表示,区别于以往的独热表示,已经成为自然语言任务中的一个重要工具,对于词向量并没有直接的方法可以评价其质量,下面介绍几种间接的方法。 二、评价方法 对于词向量的评价更多还是应该考虑对实际任务的收益,脱离的实际任务很难确定A模型就一定比B好,毕竟词向量...

2018-07-10 11:51:32 3208 0

原创 Kaggle:Quora Question Pairs

一、概要 Quora Question Pairs是kaggle上一个关于文本匹配的问题,主要目的是判断两个问题是不是同一个意思。 二、数据简介 数据结构相对比较简单,如下: "id","qid1",&quot...

2018-06-11 19:00:31 3657 1

原创 Deep Sentence Embedding Using Long Short-Term Memory Networks

一、概述 这种方式来自于论文Deep Sentence Embedding Using Long Short-Term Memory Networks,简单的来说应该是一种生成句向量的方法。 二、思路 论文中作者对比了很多相关工作,总而言之就LSTM-RNN这种方法相对而言有很大优势,这里就...

2018-06-11 14:11:10 990 0

原创 Text Matching as Image Recognition

一、概述 MatchPyramid来自Liang Pang等在2016发表的一篇文章Text Matching as Image Recognition,大意为利用图像识别的方式进行文本匹配。 二、思路 对于文本匹配,基本思路如下述公式: 其中T为文本,函数θθθ代表将文本转换为对应的...

2018-06-11 11:48:51 3184 0

原创 Kaggle:Getting Started of Titanic

一、概要 泰坦尼克号幸存预测是Kaggle上参与人数最多的的比赛之一,要求参赛人员预测乘客是否能够幸存,是一个典型的二分类问题。 二、数据简介 官网提供训练数据集train.csv和测试数据集test.csv和一个提交样例数据集,数据中的各个字段如下: PassengerId: 乘客的ID...

2018-05-19 17:03:16 544 0

原创 知识图谱:行业图谱实战

一、前言 关于知识图谱的概念,这里不加赘述,可以参考:知识图谱简介 下文会基于上市公司的基本数据,如:行业、地区、高管等,进行一个简单的实战。 二、构建步骤 1、数据抽取 上市公司的信息可以从很多地方获取到,包括证监会或各类财经网站,或者工商局官网等等,基于获取难度与项...

2018-05-11 15:55:34 11020 2

原创 知识图谱:Konwledge Graph简介

一、概念 Konwledge Graph来源于2012年谷歌提出的,用于增强其搜索引擎功能的知识库。 本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。 具体体现在谷歌搜索...

2018-05-10 20:12:40 2262 0

原创 Replace or Retrieve Keywords In Documents At Scale

一、概念 Flashtext主要用于关键字搜索与替换,来自于论文:Replace or Retrieve Keywords In Documents At Scale 论文中提到,Flashtext基于 Trie 字典数据结构和 Aho Corasick,但从搜索方式上,只匹配完整的词而不会匹...

2018-05-04 10:56:31 1824 3

原创 How to Strike a Match

一、概念 来自于Simon White发表的一篇文章:How to Strike a Match 这个算法主要为了满足以下三个需求: (1)字符串之间只是在某几个字符处出现不同,那么相似度应该比较高。 (2)字符串的区别只是相同的词组以不同的顺序排列,那么相似度应该比较高。 (3)语言无关性...

2018-05-02 15:55:08 815 0

提示
确定要删除当前文章?
取消 删除