无监督学习-词嵌入(Unsupervised Learning-Word Embedding)

#非监督学习
我们对于不同的分类,常常使用的就是1-of-N Encoding(或者叫One-hot编码),每个元素只能有一维上是1,其余是0,这样就可能反应不出来每个分类之间的关系,我们就会想把这些词语进行分类,比如第一类是动物,第二类是动作,第三类是植物,我们又进一步将其投影到高维空间(这个高维其实是比种类N低得多),就期望同类的会比较聚集在一起,而坐标轴又反应一定关系,比如左侧就不是生物,右侧就是生物在这里插入图片描述
机器需要阅读大量的文章
在这里插入图片描述
上篇文章中auto-encoder不能做词嵌入向量呢,因为编码都是使各维度间是独立的,我们并不能学到比较好的效果。
挖掘信息的方式
Count based
如果wi,wj经常一起出现,我们就设计向量V(wi),V(wj)使他们的内积趋近于Nij(他们共同出现在一个文本的次数)
在这里插入图片描述
Prediction based
输入一个词,我们就会假设下一个词会是什么,例如我们将词(one-hot编码后)输入网络,网络输出是每个词出现的几率,当我们把模型训练好后,我们就会发现第一个隐层激活函数前z,我们把他考虑成一个词汇的话,就会有如右下图的分类效果,好像程序就理解了每个词的含义
在这里插入图片描述
比如我们从文章学到某句是蔡英文宣誓就职,另一句是马英九宣誓就职,我们的神经网络输入就会想让输入蔡英文或马英九,他们的几率应该是差不多的,因此他们经过了第一层的隐层的时候,只有他们计算出的z比较接近,才有可能实现输出相同的几率,所以我们模型训练出来后,取第一层隐层就会有分类效果
在这里插入图片描述
在这里插入图片描述
也许有人说我们输入马英九或者蔡英文就输出宣誓就职可能有点太夸张了,是不是多几个词语再决定比较好,以2个词语输入为例,但是这里我们就会有要求,第一个词语连结第一个神经元的权重和第二个词语连结第一个神经元的权重一样,依次继续,这是为什么呢,第一个是能减少参数,第二个是我们希望当w1出现在w2的位置上,我们也会有相同的输出。
x1,x2都是V个维度的one-hot编码,z就是其线性组合,我们考虑w1=w2=w,所以右侧就能合并,实现2个权重相同呢,其实这跟我们之前说的CNN原理一样,我们将wi,wj一样的初始值,然后每次处理梯度时,减去2者的偏导和学习率,最后我们wi,wj就能保证始终一样
在这里插入图片描述
在这里插入图片描述
CBOW模型w_{i-1} ,w_{i+1} 去预测w_{i}
Skip-gram模型,我们已知w_{i} ,去预测w_{i-1} ,w_{i+1}
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值