1.文章的重点工作和创新点
1.Zero-shot:零样本学习,相关简介如下,
禁 止 套 娃
零样本学习常用演算法有:
- Domain Adaptation,推荐Associative Adaptation系列的论文"Associative Domain Adaptation
"- Data Selection:是一种相对直观的方法,论文《Selecting Training Data for Cross-Corpus Speech Emotion Recognition: Prototypicality vs. Generalization
》在训练集中寻找和测试集相似性较高的来训练一个新的模型- Semantic Space:利用已知的Semantic Space方法来对训练资料库中没看过的领域做预测,论文《Zero-shot learning through cross-modal transfer》透过文字和图片两种Modality做结合
- Feature Normalization:最后一个方法就是在特征端动手。通常不同数据集之间训练的网络无法通用(比如猫狗数据有监督不能识别小乌龟)的原因就是在特征空间Feature Space中这些数据的分布差异过大,甚至不在同一个Space上,所以才会导致模型无法共用,所以论文《Unsupervised learning in cross-corpus acoustic emotion recognition》t讨论了各种不同的Feature Normalization方法来得到训练出一个更加智能的Model
2.GAN:https://zhuanlan.zhihu.com/p/42606381
3.idea:通过关系类别的文本描述生成关系类别的表征,让生成器来通过未知文本的描述得到未知文本的表征(以关系向量的形式表征)
2. Introduction
传统的large-scale知识图谱需要大量的结构数据(structured data),也就是节点,实体和边用头实体和尾实体及其对应的关系的三元组来表征。但是对于newly-added relations就GG了,因此考虑Zero-shot learning(ZSL)
零次学习。作者概括为:新的语义特征类别(semantic features of new classes)可以直接从文本描述(textual descriptions)获得。所以作者希望利用unseen relations的文本描述直接生成relation embeddings。这一过程面临两个挑战:1.需要解决如何将文本语义空间(text semantic space)knowledge transfer到知识图语义空间(knowledge graph semantic space)中,从而实现这种无监督的zero-shot目的。2.对于文本描述中的噪声问题对分辨目标关系的干扰。对于挑战1,作者用将文本描述喂给GAN来生成虚假关系embeddings,作为我们"inter-class diversity"的未知关系(unseen relations);对于挑战2,作者利用词嵌入的词袋模型,计算TF-IDF特征降低less relevant words的weight。
3. Zero-Shot Learning Setting
3.1 Zero-shot Setting
According to the zero-shot setting, there are two different relation sets R s = { r s } R_s=\{ r_s\} Rs={ rs}也是训练集, R u = { r u } R_u=\{ r_u\} Ru={ ru},也是测试集:
- R s ⋂ R u = ϕ R_s\bigcap R_u=\phi Rs⋂Ru=ϕ,即seen关系集和unseen关系集不重叠(seen classes and unseen classes)
定义 background KG G \mathcal G G: G = { ( e 1 , r s , e 2 ) ∣ e 1 ∈ E , e 2 ∈ E } \mathcal G=\{(e_1,r_s,e_2)|e_1\in E,e_2 \in E\} G={ (e1,rs,e2)∣e1∈E,e2<