NLP
文章平均质量分 84
Hearthougan
这个作者很懒,什么都没留下…
展开
-
最大熵模型
本篇博客只是最近两天看最大熵模型的一个理解和简单总结,只为了阐述清楚最大熵模型,不涉及公式推导。为了怕很快忘记,特意综述一下,如有不正确之处欢迎指正。 最大熵原理 熵:某种意义上说,概率是度量随机事件的确定性,熵是度量随机事件的不确定性。对于随机变量的概率分布来说,随机变量的分布越均匀,其熵越大。最大熵原理:我们构建一个概率模型对某个随机变量的分布进行预测时,发现有很多概率模型...原创 2018-08-09 16:39:32 · 1034 阅读 · 1 评论 -
深度学习中的注意力机制(Attention Model)
注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。所以,了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。转载 2018-11-05 16:51:54 · 4553 阅读 · 1 评论 -
一文详解深度学习在命名实体识别(NER)中的应用
目录1、NER 简介2. 深度学习方法在NER中的应用2.2 IDCNN-CRF3. 实战应用3.1 语料准备3.2 数据增强3.3 实例4. 总结近几年来,基于神经网络的深度学习方法在计算机视觉、语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展。在NLP的关键性基础任务—命名实体识别(Named Entity Recognition,NER...转载 2018-11-07 09:58:38 · 1173 阅读 · 0 评论 -
卷积神经网络的一些细节思考(卷积、池化层的作用)
卷积神经网络由卷积核来提取特征,通过池化层对显著特征进行提取,经过多次的堆叠,得到比较高级的特征,最后可以用分类器来分类。这是CNN的一个大概流程,其具体实现的结构是丰富多样的,但总的思想是统一的。CNN整个的计算过程,最重要的有两点:组合性和局部不变性(平移、旋转、尺度放缩)。组合性:每个卷积核可以看做某种特征的提取器。所谓组合性就是将卷积核提取的一些简单特征进行组合,得到更高级...原创 2018-10-20 10:47:53 · 8205 阅读 · 0 评论 -
CRF++在Windows下以及Linux下的安装及测试方法
Windows与Linux下CRF++有两种不同的版本,很多时候官网无法下载,你如果需要下载CRF++,你可以点击这里下载这两个版本。Windows首先说一下Windows的安装方法(其实无需安装),以及简单的使用方法。1、解压,进入crf++-0.58,你可以看到2、你需要把红色方框内的文件复制到example\chunking文件夹下。3、打开cmd,找到刚刚的...原创 2018-09-29 15:59:43 · 2042 阅读 · 0 评论 -
Python 正则表达式
实例引入说了这么多,可能我们对它到底是个什么还是比较模糊,下面我们就用几个实例来感受一下正则表达式的用法。我们打开开源中国提供的正则表达式测试工具http://tool.oschina.net/regex/,打开之后我们可以输入待匹配的文本,然后选择常用的正则表达式,就可以从我们输入的文本中得出相应的匹配结果了。例如我们在这里输入待匹配的文本如下:Hello, my phone ...转载 2018-09-21 10:13:47 · 373 阅读 · 0 评论 -
Understanding LSTM Networks
本文是转自 colah's blog的博客,是为了自己查看方便,是讲LSTM的结构和原理非常好的文章,这个也是大多数博客讲解LSTM的参考。文末附有文章出处。Recurrent Neural NetworksHumans don’t start their thinking from scratch every second. As you read this essay, you und...转载 2018-09-26 10:41:10 · 1003 阅读 · 0 评论 -
图示Softmax及交叉熵损失函数
Softmax函数Softmax是将神经网络得到的多个值,进行归一化处理,使得到的值在之间,让结果变得可解释。即可以将结果看作是概率,某个类别概率越大,将样本归为该类别的可能性也就越高。Softmax就如下图(借鉴李宏毅老师的课件)SoftMax为了更加清晰的看清整个过程,我将其制作成gif,如下图所示:Softmax的工作过程交叉熵:假设和是关于样本集的两个分布,其...原创 2018-09-14 22:21:18 · 25291 阅读 · 10 评论 -
详细阐述基于时间的反向传播算法(Back-Propagation Through Time,BPTT)
上一节我们说了详细展示RNN的网络结构以及前向传播,在了解RNN的结构之后,如何训练RNN就是一个重要问题,训练模型就是更新模型的参数,也就是如何进行反向传播,也就意味着如何对参数进行求导。本篇内容就是详细介绍RNN的反向传播算法,即BPTT。首先让我们来用动图来表示RNN的损失是如何产生的,以及如何进行反向传播,如下图所示。上面两幅图片,已经很详细的展示了损失是如何产生的, 以及...原创 2018-09-20 00:55:59 · 9383 阅读 · 4 评论 -
RNN二进制加法实例
本文是根据前两篇详细展示RNN的网络结构以及详细阐述基于时间的反向传播算法(Back-Propagation Through Time,BPTT)来找的一个RNN实例,本例子可以帮助对RNN的前向传播以及后向传播,以及RNN结构的理解。整个过程符合下图RNN结构描述:# -*- coding: utf-8 -*-"""Created on Mon Sep 24 17:02:41 2...原创 2018-09-25 15:04:35 · 2243 阅读 · 1 评论 -
详细展示RNN的网络结构
下面简单介绍一下RNN的结构,如果简略地去看,RNN结构很简单,根本没有CNN那么复杂,但是要具体实现,还是需要仔细思考一下,希望本篇博客能把RNN结构说的明白。循环神经网络(Recurrent Neural Network,RNN)DNN以及CNN在对样本提取特征的时候,样本与样本之间是独立的,而有些情况是无法把每个输入的样本都看作是独立的,比如NLP中的此行标注问题,ASR中每个音素都和前...原创 2018-09-17 20:27:54 · 17256 阅读 · 11 评论 -
通俗理解LDA主题模型
转自:https://blog.csdn.net/v_july_v/article/details/412095150 前言 印象中,最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是因为这篇文档的前序铺垫太长(现在才意识到这些“铺垫”都是深刻理解LDA 的基础,但如果没有人帮助初...转载 2018-09-06 21:59:20 · 901 阅读 · 0 评论 -
白话EM算法
EM算法其实就是一种函数的近似求解方法,它是一种迭代算法,在很多算法中都有着重要的应用,比如HMM的学习问题,GMM,语音识别中的MM-GMM以及主题模型PLSA等等,所以掌握EM的求解方式还是很必要的。本文参考李航博士的《统计学习方法》,但前提是需要了解EM以及高斯混合分布的基本概念,我不从最基础说起,希望能说的明白。EM算法可以解决极大似然估计参数的求解方法,只不过当问题的分布包含一个隐藏...原创 2018-09-04 21:31:14 · 667 阅读 · 0 评论 -
蒙特卡洛方法(Monte-Carlo Simulation)
目录布封投针问题(Buffon's needle problem)蒙特卡洛方法(Monte-Carlo Simulation)估算PI估计不规则图形的面积随机抛点采样估计样本采集拒绝采样(reject sample)布封投针问题(Buffon's needle problem)问题:1、取一张白纸,画出间隔为的等距平行线。2、取一根长度为的针,...原创 2018-09-01 17:29:22 · 38158 阅读 · 7 评论 -
奇异值分解(SVD)小结
目录阵的简单理解矩阵作用于向量用矩阵的表达一个实体特征值和特征向量奇异值分解Hermitian矩阵共轭转置酉矩阵谈谈《数学之美》对SVD的理解阵的简单理解矩阵从我的理解来看,可以从两个角度来看。一个是矩阵是作用于向量,一个是矩阵表达一个实体。矩阵作用于向量对于线性空间中,对向量的变换就是通过矩阵对向量的作用来实现的,矩阵本身就表示着一种变换。假设...原创 2018-08-15 16:06:33 · 2477 阅读 · 1 评论 -
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
目录图像领域的预训练Word Embedding考古史从Word Embedding到ELMO从Word Embedding到GPTBert的诞生Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不...转载 2018-11-19 16:56:05 · 1250 阅读 · 0 评论