[机器学习]词汇embedding

  • ①可以类比一下之前自己做的一个例子:在最初将单词编码的时候,我们使用的直接是one-hot向量的方式来进行编码的,非常简单粗暴的一种方式(根据单词在语料库中的索引,作为对应单词的词向量的对应值,这个其实是非常不好的一种方式,因为没有充分体现各个词在语义上的联系),所以会需要使用词向量的方式来“描述”不同的单词。
  • ②这里的embedding的概念,本意是一种嵌入,也可以理解成是一种映射,说白了就是一种函数关系。在NLP中,将一组语料库中的单词(可以用简单的one-hot)表示,映射到对应的另一个空间Y中,X->Y的这种映射就是embedding,其实我们已经做过类似的动作了,比如数据处理中,将一组数据通过卷积层,映射成一个巨大的维度的数据,这也可以理解是embedding(好处是降低了过拟合)。所以embedding是
    一种将词汇进行空间变化的计数,转换后的词是一个词向量,具有两个特性,1.具有一对一特性,类似函数的一对一映射,2.具有关系保留特性,在优化后的embedding词向量中,可以得到类似北京-中国=巴黎-法国的特性,即一定的语义关系,这个也是需要进行词向量表达的主要原因之一。
  • ③进行embeding其实可以直接用tf中相关函数自动编码(都进行了高度封装),这个部分后续再尝试。总之,embeding其实就是从单词映射到词向量的一个过程,只不过由于像从一个空间x,嵌入到另一个空间Y,所以,这种处理行为也称为embedding。

其实就是一个神经网络的语义翻译机,但是区别是,这种翻译机,不仅仅只能够翻译语义,他能够翻译数据,将数据用1000个1万个摄像机去看,从而原来看上去比较不可分割的数据,在这种多维度的查看之下,变成了区别鲜明的“神经网络语言”,这个有点像我们之前经常在古镇看到的一些微型的雕刻艺术作品,比如米粒作品,真的是非常的了不起,但是实际上是怎么做到的呢?在做的时候,会用一个放大镜,这样原来非常非常小的米粒,就变成了非常非常大的一个平面,而通过特殊的工具,只能够进行很小的维度的移动的方式。进行微型的雕刻,然后我们会觉得做出来的成品非常的了不起,因为我们自己不知道如何才能够做到,需要多少的细心,需要多少的耐心,才能够完成。可以看出来,当我们看一样无法看懂的,比较模糊的事物的时候,其实利用的是什么思想?其实是一种从宏观,到微观的思想。当我们看一样东西不知道怎么去看的时候,就用放大镜去看就行了,当然要用放大镜从不同的角度进行查看,这点是非常重要的。甚至可以说,从思维模式上面来说,不亚于我们通过历史看未来的思想,如果说通过历史看待未来的思想是一种时间维度上面的划分的话,那么 这种通过宏观到微观辨识的思想,就是从空间维度上几乎同等重要的一种思想。通过多个角度的辨识,查看,或者是从多个角度进行微观的创造,从而形成一个宏观的,美的东西,其实我们平时的画画,平时的模型制作,从一定的角度来看有一定的历史看未来,同时也有一些宏观到微观我们绘画的时候,总是先进行一些定位,一些轮廓的设置,然后我们在进行具体的细节的描绘尤其是在画油画的时候。所以这里的词向量,可能没有太多的历史看待未来,但确实把一个单词,切分了1万刀,然后通过查看这1万个碎片的方式,重新定义了这个词汇,就好像我们看到的是一个词汇,而神经网络实际上看到的是1万个碎片的组合。我们看事情的时候也是一样的道理,从多个角度去看,从更高的维度去看, 往往会比乍一眼,宏观的看一下,得出自己的结论要可靠得多,希望在生活中也能够多运用一些类似的模式和思想,而不是仅仅停留在算法层面,这些其实都是非常好的能够实现现实的可能性提升的很好的思想。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值