Abner

博观而约取,厚积而薄发,不可择焉不精,语焉不详!

从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能,有些任务还被刷爆...

2018-11-19 16:56:05

阅读数:16

评论数:0

一文详解深度学习在命名实体识别(NER)中的应用

目录 1、NER 简介 2. 深度学习方法在NER中的应用 2.2 IDCNN-CRF 3. 实战应用 3.1 语料准备 3.2 数据增强 3.3 实例 4. 总结 近几年来,基于神经网络的深度学习方法在计算机视觉、语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少...

2018-11-07 09:58:38

阅读数:15

评论数:0

深度学习中的注意力机制(Attention Model)

注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。所以,了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。

2018-11-05 16:51:54

阅读数:45

评论数:0

卷积神经网络的一些细节思考(卷积、池化层的作用)

卷积神经网络由卷积核来提取特征,通过池化层对显著特征进行提取,经过多次的堆叠,得到比较高级的特征,最后可以用分类器来分类。这是CNN的一个大概流程,其具体实现的结构是丰富多样的,但总的思想是统一的。 CNN整个的计算过程,最重要的有两点:组合性和局部不变性(平移、旋转、尺度放缩)。 组合性...

2018-10-20 10:47:53

阅读数:35

评论数:0

CRF++在Windows下以及Linux下的安装及测试方法

Windows与Linux下CRF++有两种不同的版本,很多时候官网无法下载,你如果需要下载CRF++,你可以点击这里下载这两个版本。 Windows 首先说一下Windows的安装方法(其实无需安装),以及简单的使用方法。 1、解压,进入crf++-0.58,你可以看到 2、你需...

2018-09-29 15:59:43

阅读数:90

评论数:0

Understanding LSTM Networks

本文是转自 colah's blog的博客,是为了自己查看方便,是讲LSTM的结构和原理非常好的文章,这个也是大多数博客讲解LSTM的参考。文末附有文章出处。 Recurrent Neural Networks Humans don’t start their thinking from sc...

2018-09-26 10:41:10

阅读数:41

评论数:0

RNN二进制加法实例

本文是根据前两篇详细展示RNN的网络结构以及详细阐述基于时间的反向传播算法(Back-Propagation Through Time,BPTT)来找的一个RNN实例,本例子可以帮助对RNN的前向传播以及后向传播,以及RNN结构的理解。整个过程符合下图RNN结构描述: # -*- codi...

2018-09-25 15:04:35

阅读数:49

评论数:0

Python 正则表达式

实例引入 说了这么多,可能我们对它到底是个什么还是比较模糊,下面我们就用几个实例来感受一下正则表达式的用法。 我们打开开源中国提供的正则表达式测试工具http://tool.oschina.net/regex/,打开之后我们可以输入待匹配的文本,然后选择常用的正则表达式,就可以从我们输入的文本...

2018-09-21 10:13:47

阅读数:33

评论数:0

详细阐述基于时间的反向传播算法(Back-Propagation Through Time,BPTT)

上一节我们说了详细展示RNN的网络结构以及前向传播,在了解RNN的结构之后,如何训练RNN就是一个重要问题,训练模型就是更新模型的参数,也就是如何进行反向传播,也就意味着如何对参数进行求导。本篇内容就是详细介绍RNN的反向传播算法,即BPTT。 首先让我们来用动图来表示RNN的损失是如何产生的,...

2018-09-20 00:55:59

阅读数:97

评论数:0

详细展示RNN的网络结构

下面简单介绍一下RNN的结构,如果简略地去看,RNN结构很简单,根本没有CNN那么复杂,但是要具体实现,还是需要仔细思考一下,希望本篇博客能把RNN结构说的明白。 循环神经网络(Recurrent Neural Network,RNN)DNN以及CNN在对样本提取特征的时候,样本与样本之间是独立...

2018-09-17 20:27:54

阅读数:98

评论数:0

图示Softmax及交叉熵损失函数

Softmax函数 Softmax是将神经网络得到的多个值,进行归一化处理,使得到的值在之间,让结果变得可解释。即可以将结果看作是概率,某个类别概率越大,将样本归为该类别的可能性也就越高。Softmax就如下图(借鉴李宏毅老师的课件) SoftMax 为了更加清晰的看清整个过程,我将其制作...

2018-09-14 22:21:18

阅读数:48

评论数:0

通俗理解LDA主题模型

转自:https://blog.csdn.net/v_july_v/article/details/41209515 0 前言     印象中,最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不...

2018-09-06 21:59:20

阅读数:305

评论数:0

白话EM算法

EM算法其实就是一种函数的近似求解方法,它是一种迭代算法,在很多算法中都有着重要的应用,比如HMM的学习问题,GMM,语音识别中的MM-GMM以及主题模型PLSA等等,所以掌握EM的求解方式还是很必要的。本文参考李航博士的《统计学习方法》,但前提是需要了解EM以及高斯混合分布的基本概念,我不从最基...

2018-09-04 21:31:14

阅读数:31

评论数:0

蒙特卡洛方法(Monte-Carlo Simulation)

目录   布封投针问题(Buffon's needle problem) 蒙特卡洛方法(Monte-Carlo Simulation) 估算PI 估计不规则图形的面积 随机抛点 采样估计 样本采集 拒绝采样(reject sample) 封投针问题(Buffon's needl...

2018-09-01 17:29:22

阅读数:163

评论数:0

奇异值分解(SVD)小结

目录 阵的简单理解 矩阵作用于向量 用矩阵的表达一个实体 特征值和特征向量 奇异值分解 Hermitian矩阵 共轭转置 酉矩阵 谈谈《数学之美》对SVD的理解 阵的简单理解 矩阵从我的理解来看,可以从两个角度来看。一个是矩阵是作用于向量,一个是矩阵表达一个实体。 矩阵作用...

2018-08-15 16:06:33

阅读数:90

评论数:0

最大熵模型

本篇博客只是最近两天看最大熵模型的一个理解和简单总结,只为了阐述清楚最大熵模型,不涉及公式推导。为了怕很快忘记,特意综述一下,如有不正确之处欢迎指正。 最大熵原理 熵:某种意义上说,概率是度量随机事件的确定性,熵是度量随机事件的不确定性。对于随机变量的概率分布来说,随机变量的分布越均匀...

2018-08-09 16:39:32

阅读数:95

评论数:0

提示
确定要删除当前文章?
取消 删除