最近一直在调研文本摘要,主题,图像标注和视频摘要方面的基础和相关论文,所以mark一下,积累知识的同时,也便于日后进行分析和总结,毕竟不是搞这个的,有点跨方向了,不过好歹也是机器学习。
我觉得我可以把博客写的系统点,但是我做不到,因为现在脑子里的知识体系不完备。。。所以往后的几篇都会以知识点的形式,一点一点逐一展开
1.Word Embedding
Word Embedding:词嵌入。最简单粗劣的理解就是:将词进行向量化表示,实体的抽象成了数学描述,就可以进行建模,应用到很多任务中,例如比较词语词之间的相似性,可以直接通过向量之间的余弦距离度量来确定。
例如一个词:“苹果”,将其表示成 [0.4, 0.5, 0.9, ...], “香蕉”:[0.3, 0.8, 0.1, ...]。如下图所示,相似的单词就会被投影成相似的角度。对应与one-hot的向量表示,如此表示方式,1.避免大量词汇的数据稀疏性,2.同时对数据进行了降维。3.句子级上的表示,加入了词与词之间的相互关系。
其实word嵌入是一种分布式的特征表述,向量的不同维度用来表征不同特征,不同维度上就代表着不同的语义。例如苹果和红旗都是红色的,苹果和香蕉都是水果。所以编码中编入的信息包含颜色和属性信息的话,则实质上往不同空间维度上投影,则语义相似性度量的结果是不一样的。