[机器学习]词汇embedding_词语的embedding-CSDN博客

本文链接：https://blog.csdn.net/XiaoH0_0/article/details/103055950

①可以类比一下之前自己做的一个例子：在最初将单词编码的时候，我们使用的直接是one-hot向量的方式来进行编码的，非常简单粗暴的一种方式（根据单词在语料库中的索引，作为对应单词的词向量的对应值，这个其实是非常不好的一种方式，因为没有充分体现各个词在语义上的联系），所以会需要使用词向量的方式来“描述”不同的单词。
②这里的embedding的概念，本意是一种嵌入，也可以理解成是一种映射，说白了就是一种函数关系。在NLP中，将一组语料库中的单词（可以用简单的one-hot)表示，映射到对应的另一个空间Y中，X->Y的这种映射就是embedding，其实我们已经做过类似的动作了，比如数据处理中，将一组数据通过卷积层，映射成一个巨大的维度的数据，这也可以理解是embedding（好处是降低了过拟合）。所以embedding是
一种将词汇进行空间变化的计数，转换后的词是一个词向量，具有两个特性，1.具有一对一特性，类似函数的一对一映射，2.具有关系保留特性，在优化后的embedding词向量中，可以得到类似北京-中国=巴黎-法国的特性，即一定的语义关系，这个也是需要进行词向量表达的主要原因之一。
③进行embeding其实可以直接用tf中相关函数自动编码（都进行了高度封装），这个部分后续再尝试。总之，embeding其实就是从单词映射到词向量的一个过程，只不过由于像从一个空间x，嵌入到另一个空间Y，所以，这种处理行为也称为embedding。

其实就是一个神经网络的语义翻译机，但是区别是，这种翻译机，不仅仅只能够翻译语义，他能够翻译数据，将数据用1000个1万个摄像机去看，从而原来看上去比较不可分割的数据，在这种多维度的查看之下，变成了区别鲜明的“神经网络语言”，这个有点像我们之前经常在古镇看到的一些微型的雕刻艺术作品，比如米粒作品，真的是非常的了不起，但是实际上是怎么做到的呢？在做的时候，会用一个放大镜，这样原来非常非常小的米粒，就变成了非常非常大的一个平面，而通过特殊的工具，只能够进行很小的维度的移动的方式。进行微型的雕刻，然后我们会觉得做出来的成品非常的了不起，因为我们自己不知道如何才能够做到，需要多少的细心，需要多少的耐心，才能够完成。可以看出来，当我们看一样无法看懂的，比较模糊的事物的时候，其实利用的是什么思想？其实是一种从宏观，到微观的思想。当我们看一样东西不知道怎么去看的时候，就用放大镜去看就行了，当然要用放大镜从不同的角度进行查看，这点是非常重要的。甚至可以说，从思维模式上面来说，不亚于我们通过历史看未来的思想，如果说通过历史看待未来的思想是一种时间维度上面的划分的话，那么这种通过宏观到微观辨识的思想，就是从空间维度上几乎同等重要的一种思想。通过多个角度的辨识，查看，或者是从多个角度进行微观的创造，从而形成一个宏观的，美的东西，其实我们平时的画画，平时的模型制作，从一定的角度来看有一定的历史看未来，同时也有一些宏观到微观我们绘画的时候，总是先进行一些定位，一些轮廓的设置，然后我们在进行具体的细节的描绘尤其是在画油画的时候。所以这里的词向量，可能没有太多的历史看待未来，但确实把一个单词，切分了1万刀，然后通过查看这1万个碎片的方式，重新定义了这个词汇，就好像我们看到的是一个词汇，而神经网络实际上看到的是1万个碎片的组合。我们看事情的时候也是一样的道理，从多个角度去看，从更高的维度去看，往往会比乍一眼，宏观的看一下，得出自己的结论要可靠得多，希望在生活中也能够多运用一些类似的模式和思想，而不是仅仅停留在算法层面，这些其实都是非常好的能够实现现实的可能性提升的很好的思想。