词向量

既然题主说词向量( Distributed Representation)的工作原理是什么,应该不是问获得词向量算法的原理。

那就举个通俗的例子。
现代人看到宝马,奔驰这两个词,第一眼的反应多数都是汽车。但是如果拿给古人看,古人一定想不到汽车。
为什么呢,因为古人没有相关知识,只能从字面上去理解这两个词,即<宝,马>,<奔,驰>。
拿给计算机,计算机看到的也是字面上的意思,这两个字串是八竿子打不着(要是给计算机宝马和宝剑,它倒是能发现这俩词有点像)。
那怎么才能让计算机把这俩词关系起来呢,这就是统计学习干的事了,因为我们有很多资源可以利用,计算机可以利用一些算法从这些资源中学习到词之间的关系,就像人类一样,天天听别人说这车是宝马,那车是奔驰,久了就知道这俩东西都是车了。但是宝马在有些语境里也未必是车,比如小说中xx身跨xx宝马,这是宝马指的是动物。

我们可以对词汇引入一种向量表示,比如:
<汽车,奢侈品,动物,动作,美食>

统计学习的方法可以学习到每个词的这种表示。它学到的可能是
宝马 = <0.5, 0.2, 0.2, 0.0, 0.1>
奔驰 = <0.7, 0.2, 0.0, 0.1, 0.0>

这样,两个字面上无关的词汇,就连接起来了。


至于怎么学来的,两大常用方法:
统计共同出现的次数(LDA,一种贝叶斯概率模型)。
根据相似的上下文(word2vec,即NN)。

到这已偏题。


转自:http://www.zhihu.com/question/21714667/answer/19433618

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值