CCF2020大数据与计算智能大赛——面向数据安全治理的数据内容智能发现与分级分类
# 在比赛即将结束的时候进入。然后。。就是很菜。
Zero-Shot Learning
目前流行的zero-shot方案有两种:
(1)人工专家未知标签的类中心定义,再进行向量化;
(2)海量的数据集自动学习未知类中心向量。
其中(1)更加准确,效果更好,但是更加麻烦。
在不能使用外部数据的情况下,也不能人工写某些概念性的东西,所以直接采用Zero-Shot方案难度较大。
可以尝试使用远程监督的方法是。
在content中包含“科技”字眼,就认为是科技相关,包含“家居”字眼,就认为是家居相关。但是这样很粗糙,可以精简为:
仅包含唯一一个关键词字眼的content才能被打上标记,比如某个文档中有“科技”和“教育”,那么这个文档就不能直接打标了。这样的话,我们train数据集有多少合适的样本呢?
分两步来分析,先找包含关键词且标注正确的样本,再找只包含一个关键词的正确样本。
零次学习基本概念
利用过去的知识,在脑海中推理出新对象的具体形态,从而能对新对象进行辨认。ZSL(zero-shot learning)就是希望能够模仿人类的这个推理过程,使得计算机具有识别新事物的能力。
ZSL希望我们的模型能够对其从没见过的类别进行分类,让机器具有推理能力,实现真正的智能。其中零次(Zero-shot)是指对于要分类的对象,一次也不学习。
(没写完还)
参考资料
https://zhuanlan.zhihu.com/p/34656727