CSE命名实体识别

1. 引言 前面介绍了Bilstm-CRF和NCRF++模型用于命名实体识别,但是这两个模型都是基于标注语料进行训练,由于标注语料一般都比较少,而且标注成本很高,因此,一般训练出来的模型泛化性会相对比较差。近两年,很多模型开始通过在大量未标注的语料上训练语言模型,然后通过Fine-tuning或者...

2019-07-31 10:43:56

阅读数 26

评论数 0

BERT原理介绍

1. 引言 2018年,谷歌提出了一个新的模型BERT(Bidirectional Encoder Representations from Transformers),刷榜了11项NLP任务,可以说是NLP的一个新的里程碑。它的思想其实跟我们前面介绍的GPT模型非常相似,只是GPT只考虑单向语言...

2019-07-26 14:54:06

阅读数 32

评论数 0

GPT原理介绍

1.引言 前面我们介绍了ELMo算法的思想,通过在大量的语料上预训练语言模型,然后再将预训练好的模型迁移到具体的下游NLP任务,从而提高模型的能力。但是ELMo预训练的语言模型结构和下游的NLP任务的模型经常会不一致,因此,做迁移学习时经常没法将两者的模型直接进行融合,因此,本文将介绍OpenAI...

2019-07-25 18:10:21

阅读数 23

评论数 0

ELMo原理介绍

1. 引言 在2018年之前,词向量表示的方法主要还是采用CBOW、skip-gram、GloVe等方法,这些方法都是采用一个固定维度的向量来表征每一个词汇或字符,虽然方法简单,但是会存在两个问题,一方面是没有考虑词汇在不同语境的信息,比如”apple"在一些场景下可以表示水果,在另一些...

2019-07-25 13:03:51

阅读数 48

评论数 0

GloVe原理介绍

1. 引言 当前,学习词向量表示的方法主要有两种类型:一种是基于全局矩阵分解的方法,如LSA,另一种是局部上下文窗口的方法,如Mikolov在2013年提出来的CBOW和skip-gram方法。但是这两种方法都有各自的缺陷,其中,LSA虽然有效利用了统计信息,但是在词汇类比方面却很差,而CBOW和...

2019-07-24 19:27:53

阅读数 37

评论数 0

Layer Normalization原理介绍

1. 引言 前面介绍了Batch Normalization的原理,我们知道,BN层在CNN中可以加速模型的训练,并防止模型过拟合和梯度消失。但是,如果将BN层直接应用在RNN中可不可行呢,原则上也是可以的,但是会出现一些问题,因为我们知道Batch Normalization是基于mini ba...

2019-07-23 20:53:58

阅读数 13

评论数 0

BILSTM-CRF原理介绍与tensorflow实现

1. 引言     在自然语言处理中,很多任务都涉及到序列标注,比如词性标注、分词、命名实体识别等,这些任务都有一个特点是输入序列和标签序列是等长的,因此,常用的解决方法有HMM、MEMM、CRF等,本文将介绍一个2015年提出来的非常经典模型,即BILSTM-CRF模型,该模型现在已经成为命名实...

2019-06-25 20:21:23

阅读数 177

评论数 0

条件随机场原理介绍

1. 引言     条件随机场(Conditional random field,CRF)是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场。条件随机场常用于序列标注问题,比如命名实体识别等。本文主要介绍线性链条件随机场。 2. 条件随机场...

2019-06-14 11:07:02

阅读数 93

评论数 1

隐马尔可夫模型原理介绍

1. 引言     隐马尔可夫模型(Hidden Markov Model,HMM)是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型,以下统一用简称HMM表示。HMM在语音识别、自然语言处理等都有着广泛的应用。 2. HMM原理介绍 2.1 HMM模型的定...

2019-06-12 15:43:27

阅读数 44

评论数 0

EM算法原理介绍

1. 引言     EM算法是Dempster等人在1977年提出来的一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计或极大后验概率估计。EM算法的每次迭代由两步组成:E步,求期望;M步,求极大,因此,该算法也被称为期望极大算法,简称EM算法。 2. EM算法原理介绍 2.1 EM算法的原...

2019-06-11 15:31:53

阅读数 41

评论数 0

文本生成任务常见评估指标

1. 引言     在传统的文本生成任务中,对于模型生成的文本,往往很难评估他们的质量,一般会采用人工投票的形式,来比较生成的文本和真实的参考文本之间的优劣或接近程度,因此,其评估过程是非常昂贵和耗时的,并且该过程没法重复,当研究人员对模型进行更新之后,又得重新雇人进行评估,或者需要对模型进行部署...

2019-05-16 15:40:55

阅读数 90

评论数 0

Transformer文本生成与tensorflow实现

1. 引言     前面介绍了文本生成任务中的经典模型——Seq2Seq,以及一些常见的attention机制,虽然在文本生成任务中取得了相当出色的成绩,但是随着数据量的增大和语料长度的增大,RNN固有的序贯性严重阻碍了训练的速度,因此,本文将介绍另一个经典的模型——Transformer,该模型...

2019-05-10 11:04:32

阅读数 530

评论数 4

如何提高文本生成任务中的文本多样性

1. 引言     前面的文章中我们介绍了文本生成中的经典模型Seq2Seq,虽然该模型在文本生成任务上取得了很大的进步,但是由于其目标函数采用的是极大似然估计,即: 1/∣S∣∑(T,S)∈Slog⁡p(T∣S) 1 /|\mathcal{S}| \sum_{(T, S) \in \mathc...

2019-05-05 17:58:35

阅读数 520

评论数 0

最大熵模型原理介绍与python实现

1. 引言     最大熵原理认为,学习概率模型时,在满足约束条件的模型集合中,熵最大的模型是最好的模型,因为在没有更多信息的情况下,我们一般会认为不确定的部分都是等可能的,而在前面决策树的介绍时我们知道,熵最大时刚好是要求概率的分布满足均匀分布,即等可能分布,因此,可以通过熵的最大化来表示等可能...

2019-05-04 14:22:30

阅读数 187

评论数 0

Seq2Seq文本生成与tensorflow实现

1.引言 近年来,深度神经网络在很多任务上都取得了不错的成绩,比如文本分类、图像识别等等,但是我们知道,像DNN神经网络结构只能解决一些分类或回归问题,而很多日常的任务却是一个序列到一个序列的映射问题,比如语音识别、机器翻译、对话系统等等,他们的输入和输出都是边长,而DNN要求输入和输出都是...

2019-04-28 11:35:16

阅读数 327

评论数 0

Res2Net模块介绍与tensorflow实现

1. 引言     在很多计算机视觉任务中,由于同一张图像中的物体往往会有不一样的尺寸,因此,我们经常需要提取图像中不同尺度的特征来提高模型的效果,在以往的经验中,我们知道可以通过堆叠不同的CNN层、采用不同size的卷积核、残差连接等来实现。在本文中,我们将介绍一种更加细粒度的方法——Res2N...

2019-04-22 20:22:15

阅读数 239

评论数 1

Logistic回归模型介绍与python实现

1. 引言     对于回归问题,我们知道可以通过回归模型进行拟合,并挖掘各个特征变量对模板变量的影响机制,但是,对于分类问题,由于目标变量是离散型变量,因此,不能直接应用回归模型进行解决,这时,可以使用Logistic回归模型进行解决。 2. Logistic回归模型介绍 2.1 Logisti...

2019-04-21 15:52:51

阅读数 129

评论数 0

常用决策树模型介绍与python实现

1. 引言     决策树(decision tree)是一种基本的分类和回归方法,由于其采用的是一种树形的结构,因此,具有很强的解释性和计算速度,也正是因为这些特点,使得决策树在很多行业都得到了应用,比如风控行业等。决策树的建模过程一般分为三个步骤:特征选择、决策树的生成和决策树的剪枝,根据这三...

2019-04-14 22:01:26

阅读数 195

评论数 0

朴素贝叶斯模型介绍与python实现

1. 引言     朴素贝叶斯模型是j基于贝叶斯定理与特征条件独立假设的分类方法,它基于特征条件独立假设学习输入和输出的联合概率分布,然后采用贝叶斯定理求出后验概率最大的类别作为预测实例的类别,是生成模型中的一种。 2. 朴素贝叶斯模型介绍 2.1 朴素贝叶斯模型介绍     对于输入空间X⊆Rn...

2019-04-06 16:49:39

阅读数 81

评论数 0

KNN原理介绍与python实现

1. 引言     K近邻法(K-Nearest Neighbor,以下简称KNN)是由Cover和Hart于1968年提出来的基本分类和回归方法,KNN的基本思想是对于每一个样本,计算与其最邻近的K个样本点,然后基于某种分类规则的的方式将这K个邻近点的类别作为该样本的预测类别,因此,KNN并不具...

2019-04-05 19:26:08

阅读数 56

评论数 0

提示
确定要删除当前文章?
取消 删除