自然语言处理
文章平均质量分 80
trayfour
Welcome back gentlemen.
展开
-
Numpy学习手册
标准安装的Python中用列表(list)保存一组值,可以用来当作数组使用,不过由于列表的元素可以是任何对象,因此列表中所保存的是对象的指针。这样为了保存一个简单的[1,2,3],需要有3个指针和三个整数对象。对于数值运算来说这种结构显然比较浪费内存和CPU计算时间。此外Python还提供了一个array模块,array对象和列表不同,它直接保存数值,和C语言的一维数组比较类似。但是由于它不支持多维原创 2016-10-23 17:01:57 · 571 阅读 · 0 评论 -
论文笔记《Chinese Lexical Analysis with Deep Bi-GRU-CRF Network》
Chinese Lexical Analysis with Deep Bi-GRU-CRF Network百度自然语言处理部的一篇论文,提出了一个结合分词,词性标注和命名实体识别的工具。 论文指出百度已经开发了各种分词,词性标注,实体识别的工具,相互独立以便各个团队使用。这种方式有两个缺点:重复计算太多,严重拖慢了计算速度吗,浪费计算资源不同任务之间不能share一些特征,比如分词的...原创 2018-07-09 20:59:36 · 2796 阅读 · 0 评论 -
glove 学习笔记
话不多说,入正题。动机:现有的词向量模型, 1 局部上下文建模的方法 例如word2vector 用通俗的话来讲就是,如果两个词在训练语料中出现的上下文比较类似,比如“食堂”和“餐厅”,都在“我”,“去”,“吃饭”这种上下文上出现了许多次,那么他俩的词向量就比较相似。 2 矩阵分解的方法,例如LSA 将文档和单词的共现矩阵,也就是行是文档,列是单词,第i行第j列,表示文档i中是否包含单词j(原创 2017-09-02 14:55:40 · 11589 阅读 · 2 评论 -
t-SNE学习笔记
http://www.datakit.cn/blog/2017/02/05/t_sne_full.html 拜读了这位大神的笔记,有些一开始不太明白的地方,写个笔记记下来。1.1基本原理SNE是通过仿射(affinitie)变换将数据点映射到概率分布上,主要包括两个步骤:SNE构建一个高维对象之间的概率分布,使得相似的对象有更高的概率被选择,而不相似的对象有较低的概率被选择。 SN原创 2017-07-28 09:32:46 · 5199 阅读 · 0 评论 -
熵,互信息,KL距离(相对熵),交叉熵
熵信息论中的熵,又叫信息熵。它是用来衡量,一个随机变量的不确定程度。 熵越大,他的不确定性越大。最大熵模型的假设就是基于此而来。 H(X)=E[I(xi)]=−∑n=1NP(xI)log(P(xi))\begin{equation*}H(X) = E[I(x_{i})] = -\sum_{n = 1}^NP(x_{I})log(P(x_{i}))\end{equation*}联合熵联合熵用得原创 2017-09-08 21:32:56 · 3965 阅读 · 1 评论 -
word2vector 一些问题及思考
本文是看了论文《Distributed Representations of Words and Phrases and their Compositionality》的学习笔记。 话不多说。 贴上cbow 和skip-gram的示意图,一个是以context预测word,一个是word预测上下文。 听同学说业界主要用skip-gram加上negative sampling这一套。论文里面也主原创 2017-04-30 20:49:11 · 5204 阅读 · 0 评论 -
Memory Network简单理解
最近想把memory network的那一套引入到自己的任务中,所以写一些学习过程中的笔记。 here is the paper http://cs224d.stanford.edu/reports/KapashiDarshan.pdfmemory 最开始出现在是 QA(问答系统)任务中。下面是memory network的结构 由4个单元组成 input单元 ,Generalization原创 2017-04-29 21:18:59 · 9250 阅读 · 0 评论 -
感知机及其对偶问题,参考《统计学习方法》
感知机模型: 1 判别模型, 2 旨在学习出一个线性划分的超平面输入 T= {(x1,y1),(x2,y2)……(xN,yN)}xi 是一n维的特征向量,yi属于{+1,-1}。 通俗来讲就是。(假设T是线性可分的)输出 函数f(x) = sign(w·x + b)sign表示符号函数。是一n维的向量。 (w,b)可以确定一个超平面。首先,我们要使用梯度下降来求解。就得确定损失函数。分类错误原创 2017-03-06 13:26:07 · 1052 阅读 · 0 评论 -
Sunday算法流程与代码
写得比较马虎,欢迎大家指正。直接看例子首先初始化一个map,也可以用大小为256的int数组,数组中记录了较短字符串中字母出现的最后一个位置,如str = “abad” map[a] = 2, map[d] = 3 然后两个指针 i, j分别指向较长字符串,较短字符串,初始i=0,j=0。(记为l_str, s_str) 如果 l_str[i] = s_str[j] 则 i++,j+原创 2017-01-01 14:06:05 · 3872 阅读 · 4 评论 -
Transition-based Parsing 简介
句法分析的几种主要方法: Deterministic parsing(specifically : Transition-based parsing) Dynamic programming(specifically : Graph-based parsing) Constraint satisfaction这里主要介绍一下Transition-based parsing 首先他所采取的数据原创 2016-12-31 12:36:28 · 5737 阅读 · 0 评论 -
Evaluation of Parsing 句法分析评测
在一般的学术论文中评测parser的好坏, 在dependency parsing中一般是用 LAS UAS 来衡量 简要说来UAS是知道是边对了(也就是它依赖的节点找对了)就算对,而LAS在前者的基础上要求更加严格,还要求边的Label也要对,才算对。 Evaluation of Dependency Parsing 在constituent parsing中则是根据gold中的一个原创 2016-12-31 12:07:38 · 1786 阅读 · 1 评论 -
Constituent Parsing & Dependency Parsing 句法分析简介
由于博主前面在学习句法分析的时候发现,相关的学习资料少之又少,费了不少功夫收集和整理。所以写几个笔记记录一下。关于Parsing的一些基础知识:主要包括Parsing任务是干什么的,有什么作用,怎么做。 可以参考Christopher Manning的视频。以前在course上面有视频,现在得翻墙看 这是视频链接https://www.youtube.com/playlist?list=PL63原创 2016-12-31 11:54:18 · 13068 阅读 · 2 评论 -
SyntaxNet安装与使用详解
安装SyntaxNet的工作环境,遇到很多麻烦,到后来发现如果不走弯路,其实并不麻烦。1 我最开始是安装anaconda。(python2.7版本) https://www.continuum.io/downloads 这个包安装完后python pip numpy都解决了,而且还不用改环境变量。2 然后用pip 安装mock和asciitree和protobuf原创 2016-12-02 19:45:30 · 5944 阅读 · 1 评论 -
知其然知其所以然之——word2vector
在学习word2vector的过程中,下面两位博主的总结及讲解给了我很大帮助。本文主要是记录在学习和理解他们的博客的过程中个人也有一些思考和理解。本人才学疏漏,有错误的地方请大家指正。 http://blog.csdn.net/itplus/article/details/37969519 http://blog.csdn.net/mytestmy/article/details/2696914原创 2016-10-14 13:57:23 · 3369 阅读 · 0 评论 -
Neural Machine translation中的Attention机制
随着深度学习的发展,NMT(Neural machine translation)已经逐渐取代了SMT(statistic MT)。其最大的有点就是系统的整体和简单,少去了统计机器翻译中的分词,对齐。抽短语等繁琐的步骤。而NMT的大致流程和思想可以去参考下面的链接,讲的很详细。 https://devblogs.nvidia.com/parallelforall/introduction-neur原创 2016-10-13 20:21:15 · 2050 阅读 · 0 评论 -
推荐给初学LSTM或者懂个大概却不完全懂的人
个人认为下面这篇博文非常适合初学或者学的很浅的朋友。 转自http://www.jianshu.com/p/9dc9f41f0b29经常接触LSTM,GRU,RNN这些模型,对于LSTM的印象只是知道它用来解决梯度消失梯度爆炸问题,对于长距离的句子的学习效果不好的问题,而且大概知道里面是加了一些参数,加了门单元来选择忘记和记住一些信息。但是具体公式没有推过,所以理解的不够深。但是上面这篇长博文,作原创 2016-10-13 14:06:00 · 10660 阅读 · 0 评论 -
Capsule 胶囊网络学习笔记
以前邹班的SMT没认真听,还得重新回来捡。参考自:https://blog.csdn.net/u013010889/article/details/78722140/CNN的缺点: 忽略了图片中的位置信息,如果在图片中检测到眼睛鼻子等,就认为这是一张人脸,但如果把这些器官打乱,还是会误识别为人脸,这是CNN中max pooling的特性造成的。如上图所示,我们通俗的将每个神经元的...原创 2018-07-09 21:15:25 · 2039 阅读 · 0 评论