Word embedding

目录

1. 背景知识

2. 如何实现word embedding?

3. 预测架构来生成 word vector

4. word vector的有趣现象

5. 文章的编码

 

 

1. 背景知识

我们在处理语言之前,需要先把字符转化为向量,怎么做呢?

clipboard

word embedding的原理:

一个词,可以后上下文找到这个词的语义。

对了,这里有个小知识: “潮水” 中,潮是一个字,而“潮水”才是一个词。

2. 如何实现word embedding?

clipboard

prediction based 的训练方式:

如果问题集里面有十万个词,那么这个network 的输出就是一个十万维的向量。

clipboard

3. 预测架构来生成 word vector

预测下文的预测模型来生成word vector

clipboard

clipboard

clipboard

一般上面的这个神经网络是一个一维的,提出者表示,没必要是deep的

clipboard

其他的预测模型

clipboard

4. word vector的有趣现象:

clipboard

clipboard

5. 文章的编码

方法一:bag of word

clipboard

把文章的bag of word 丢到auto-encoder里面就可以得到文章的embedding了

但是词之间的顺序是很重要的,同样的bag of word 可能有不同的意思

clipboard

 

 

Reference:

李宏毅,Unsupervised Learning: Word Embedding,http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html

转载于:https://www.cnblogs.com/rainwelcome/p/11478202.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值