无监督学习-词嵌入（Unsupervised Learning-Word Embedding）

最新推荐文章于 2022-04-11 09:49:07 发布

小~军军

最新推荐文章于 2022-04-11 09:49:07 发布

阅读量504

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_43277904/article/details/100879331

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

#非监督学习
我们对于不同的分类，常常使用的就是1-of-N Encoding(或者叫One-hot编码)，每个元素只能有一维上是1，其余是0，这样就可能反应不出来每个分类之间的关系，我们就会想把这些词语进行分类，比如第一类是动物，第二类是动作，第三类是植物，我们又进一步将其投影到高维空间（这个高维其实是比种类N低得多），就期望同类的会比较聚集在一起，而坐标轴又反应一定关系，比如左侧就不是生物，右侧就是生物在这里插入图片描述
机器需要阅读大量的文章

上篇文章中auto-encoder不能做词嵌入向量呢，因为编码都是使各维度间是独立的，我们并不能学到比较好的效果。
挖掘信息的方式
Count based
如果wi,wj经常一起出现，我们就设计向量V(wi),V(wj)使他们的内积趋近于Nij（他们共同出现在一个文本的次数）
在这里插入图片描述
Prediction based
输入一个词，我们就会假设下一个词会是什么，例如我们将词(one-hot编码后)输入网络，网络输出是每个词出现的几率，当我们把模型训练好后，我们就会发现第一个隐层激活函数前z，我们把他考虑成一个词汇的话，就会有如右下图的分类效果，好像程序就理解了每个词的含义
在这里插入图片描述
比如我们从文章学到某句是蔡英文宣誓就职，另一句是马英九宣誓就职，我们的神经网络输入就会想让输入蔡英文或马英九，他们的几率应该是差不多的，因此他们经过了第一层的隐层的时候，只有他们计算出的z比较接近，才有可能实现输出相同的几率，所以我们模型训练出来后，取第一层隐层就会有分类效果
在这里插入图片描述

也许有人说我们输入马英九或者蔡英文就输出宣誓就职可能有点太夸张了，是不是多几个词语再决定比较好，以2个词语输入为例，但是这里我们就会有要求，第一个词语连结第一个神经元的权重和第二个词语连结第一个神经元的权重一样，依次继续，这是为什么呢，第一个是能减少参数，第二个是我们希望当w1出现在w2的位置上，我们也会有相同的输出。
x1,x2都是V个维度的one-hot编码，z就是其线性组合，我们考虑w1=w2=w，所以右侧就能合并，实现2个权重相同呢，其实这跟我们之前说的CNN原理一样，我们将wi,wj一样的初始值，然后每次处理梯度时，减去2者的偏导和学习率，最后我们wi,wj就能保证始终一样
在这里插入图片描述

CBOW模型w_{i-1} ,w_{i+1} 去预测w_{i}
Skip-gram模型，我们已知w_{i} ,去预测w_{i-1} ,w_{i+1}

小~军军

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
无监督学习-词嵌入（Unsupervised Learning-Word Embedding）

#非监督学习我们对于不同的分类，常常使用的就是1-of-N Encoding(或者叫One-hot编码)，每个元素只能有一维上是1，其余是0，这样就可能反应不出来每个分类之间的关系，我们就会想把这些词语进行分类，比如第一类是动物，第二类是动作，第三类是植物，我们又进一步将其投影到高维空间（这个高维其实是比种类N低得多），就期望同类的会比较聚集在一起，而坐标轴又反应一定关系，比如左侧就不是生物，右...
复制链接

扫一扫