1.one-hot representation与distributed representation学习笔记

原创 2016年12月19日 10:24:29

词表示:

高维数据可以转换为连续的实数real valued概念向量,从而有效地从数据中捕获其潜在关系。例如,肺炎pneumonia和支气管炎bronchitis显然比肺炎和肥胖obesity更相关。在one-hot coding中,像这种不同代码之间的关系不能表示。

one-hot coding扩展:

考虑一个词表V,里面的每一个词 wi都有一个编号 i∈{1,...,|V|},那么词 wi的one-hot表示就是一个维度为|V|的向量,其中第i个元素值非零,其余元素全为0。例如:

w2=[0,1,0,...,0]T

w3=[0,0,1,...,0]T

可以看到,这种表示不能反映词与词之间的语义关系,因为任意两个词的one-hot representation都是正交的;而且,这种表示的维度很高。

基于distributional hypothesis的词表示模型:

具有相似上下文的词,应该具有相似的语义。这个假说被称为distributional hypothesis。词的distributed representation(分布式表示)就是一种表示能够刻画语义之间的相似度并且维度较低的稠密向量表示,例如:

高兴=[0.2,1.6,0.6,0.7,0.3]T

开心=[0.3,1.4,−0.5,0.9,0.2]T

这样,便可通过计算向量的余弦相似度,来反映出词的语义相似度。

一般基于矩阵。词与词的关系,将现有模型分为两大类:一类是syntagmatic models,一类是paradigmatic models。

(一)syntagmatic models

syntagmatic models关注的是词与词的组合关系(combinatorial relations),强调的是相似的词会共现于同一个语境(text region),比如在上图中,"wolf"和"fierce"就属于组合关系。为了建模组合关系,可以使用词-文档共现矩阵(co-occurrence matrix):矩阵的行指标代表词,列指标代表文档,矩阵的元素可以是词频等。例子,现在有三篇文档——doc1: I love playing football. doc2: I love playing tennis. doc3: You love playing football. 那么现在可以建立一个词-文档共现矩阵,元素值代表词频:

结论:"love"和"playing"这两个较强组合关系的词的词表示是相似的,而"football"和"tennis"这两个具有较强替换关系的词的表示是不相似的。此外,这样的词表示的维度较高。

 

 

 





Latent Semantic Analysis (LSA) 模型扩展:

优点:可以把原文本特征空间降维到一个低维语义空间;减轻一词多义和一义多词问题

缺点:特别耗时

例子:"被子"和"被褥"是两个完全不同的维度,而"笔记本"(notebook or laptop?)又被表示成相同的维度,因此不能够体现文本中隐含的语义。

奇异值分解:,式中,m代表词的个数(矩阵的行数),n代表文档的个数(矩阵的列数);X是词-文档共现矩阵;U、V两个方阵满足 UTU=VTV=E(正交矩阵),其中U的列向量称为X的左奇异向量,V的列向量称为 X的右奇异向量;矩阵Σ的对角元素为从大到小排列的奇异值且其他元素均为0,且非零奇异值的个数就等于矩阵X的秩。为了降维,只取奇异值中最大的k个,那么SVD的式子就变成了下式: 特征向量可求得矩阵U,由的特征向量可求得矩阵V,两者特征根是一样的,为,它们的开方是对角线上的值。

例子:

 

 

SVD



(二)paradigmatic models

paradigmatic models关注的是词与词的替换关系(substitutional relations),强调的是相似的词拥有相似的上下文(context)而可以不同时出现。在上图中,"wolf"和"tiger"就属于替换关系。词-词共现矩阵(words-by-words co-occurrence matrix):行指标和列指标都是词。

矩阵中,所取的窗口大小为1:比如说以"love"作为中心词、窗口大小为1的窗口就是"I, love, playing"、"I, love, playing"、"You, love, playing",考虑的是中心词左边和右边各1个词,那么在窗口内"love"和"playing"共现了3次,所以上面这个矩阵的第二行第三列就是3。

可以看出,"football"和"tennis"这两个较强替换关系的词的词表示是相似的,而"love"和"playing"这两个较强组合关系的词的词表示是不相似的。




神经概率语言模型NPLM:

近年来,基于神经网络来得到词表示的模型备受青睐。这类模型所得到的词的向量表示是分布式表示distributed representation,通常被称为word embedding(词嵌入;词向量)。神经概率语言模型(NPLM, Neural Probabilistic Language Model),通过训练语言模型,同时得到词表示。

表示长度为T的词串=其中,

n-gram模型是一种近似策略,作了一个马尔可夫假设:认为目标词wt的条件概率只与其之前的n1个词有关:


one hot 编码及数据归一化

机器学习 数据预处理之独热编码(One-Hot Encoding) 问题由来 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 例如,考虑一下的三个特征: ...
  • dulingtingzi
  • dulingtingzi
  • 2016年05月11日 14:51
  • 30590

数据处理之one-hot

分类方法,通常需要把数据的各个属性转换为一个向量表示,这样每条数据的特征就是一个向量,向量上的每个维度就表示了一个特征属性。 但是如果要转换的数据包含了3种属性,比如身高,体重,年龄。A是女,168c...
  • u010910436
  • u010910436
  • 2016年12月20日 14:33
  • 1496

超棒的一遍综述性博客

原文: http://licstar.net/archives/328 Deep Learning in NLP (一)词向量和语言模型 Posted on 2013 年 7 月 29 日 ...
  • jolinxia
  • jolinxia
  • 2015年09月01日 19:38
  • 814

知识图谱中的知识表示学习(Representation Learning)

Word Representation1. one-hot representation 长度为词典长度,每个词在词典中的位置置1,其余置0 Curse of Dimension, 不适合太大的字典 ...
  • zlasd
  • zlasd
  • 2017年04月05日 15:47
  • 5830

【机器学习】文本数据简单向量化

一个文本数据指的是一篇文章,或者一段话,或者一句话。这个文本数据通常称为document,或者text。我们平常的文本都是以人的表达方式展现的,是一个流数据,时间序列数据。我们如果要用计算机对文本数据...
  • juanqinyang
  • juanqinyang
  • 2017年02月27日 22:13
  • 2305

one-hot编码

在实际的应用场景中,有非常多的特征不是连续的数值变量,而是某一些离散的类别。比如在广告系统中,用户的性别,用户的地址,用户的兴趣爱好等等一系列特征,都是一些分类值。这些特征一般都无法直接应用在需要进行...
  • Chloezhao
  • Chloezhao
  • 2016年12月06日 14:51
  • 4001

基于sklearn 的one hot encoding

1.one hot编码的由来在实际的应用场景中,有非常多的特征不是连续的数值变量,而是某一些离散的类别。比如在广告系统中,用户的性别,用户的地址,用户的兴趣爱好等等一系列特征,都是一些分类值。这些特征...
  • bitcarmanlee
  • bitcarmanlee
  • 2016年05月21日 22:41
  • 15687

自然语言处理︱简述四大类文本分析中的“词向量”(文本词特征提取)

笔者在看各种NLP的论文、文献、博客之中发现在应用过程中,有种类繁多的词向量的表达。笔者举例所看到的词向量有哪些。 词向量类型: 一个词一列向量,Hash算法,word2vec,LDA主题-词语矩...
  • sinat_26917383
  • sinat_26917383
  • 2016年08月09日 15:32
  • 11610

数据处理——One-Hot Encoding

一、One-Hot Encoding     One-Hot编码,又称为一位有效编码,主要是采用位状态寄存器来对个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。     ...
  • google19890102
  • google19890102
  • 2015年03月03日 16:54
  • 51415

one hot coding -机器学习

机器学习 数据预处理之独热编码(One-Hot Encoding) 问题由来 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 例如,考虑一下的三个特征: ...
  • AriesSurfer
  • AriesSurfer
  • 2015年01月08日 16:39
  • 26171
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:1.one-hot representation与distributed representation学习笔记
举报原因:
原因补充:

(最多只允许输入30个字)