本系列分为四部分,这篇文章是本系列最后一篇,在公众号上有写过:word embedding系列(四):标签embedding(Wsabie和TagSpace)),现在搬到CSDN上~
欢迎关注我的公众号,微信搜 algorithm_Tian 或者扫下面的二维码~
现在保持每周更新的频率,内容都是机器学习相关内容和读一些论文的笔记,欢迎一起讨论学习~
本篇介绍两个自动标注算法Wsabie和基于它的TagSpace,这两个算法本质上是分类,副产物是类标签的embedding。
1. Wsabie
论文名:WSABIE: Scaling Up To Large Vocabulary Image Annotation (http://www.thespermwhale.com /jaseweston/papers/wsabie-ijcai.pdf)
对于 WSABIE 来说,打标签的过程,就是计算所有标签与当前对象的相似性,并取出相似性最高的标签作为结果。
由于对象的 feature 和标签是两种不同的东西,为了计算相似性,WSABIE 将它们映射到 同一个向量空间:
对象I的特征向量x映射到公共空间,其中V是映射矩阵;
标签转换到公共空间,矩阵W第i列是第i个标签的embedding。
标签与对象之间的相似度定义为:
1.1损失函数
模型的优化目标,是让对应标签与对象有较高的相似度。于是损失函数写为: