Seed the Views: Hierarchical Semantic Alignment for Contrastive Representation Learning
核心是做语义对齐,是深入网络内部做对齐,对抗损失函数。
涉及到对抗损失,需要正负样本:
Cross_Sample: 对于跨样本的观点,选择适当的最近的样本作为阳性样本是一个两难的选择,拉出在特征空间中事实上非常相似的样本带来的性能提升是有限的,因为目前的表示法可以很好地处理这些不变性,而扩大搜索空间将不可避免地引入噪声样本。为了解决这个问题,**我们依靠数据混合来产生额外的正样本,**这可以被视为锚的平滑正则化。通过这种方式,类似的样本以一种更平滑和稳健的方式被扩展,我们能够更好地对类内相似性进行建模,以实现紧凑表示。
在ablation study中,需要考虑正样本的个数,k。
选择作为contrastive的样本,正负样本如何选择?样本数量上设计多少比较合适?
Multi-level views: 对于多层次的观点,我们发现虽然最后一层的线性分类准确率接近监督基线[2], [3],但目前基于对比的方法的中间层表示遭受了更低的分辨能力,这对于需要中间分辨能力的下游任务,如检测,是有害的。为了实现这一目标,我们将观点扩展到网络的中间层,并提出了一种分层训练策略,使特征表示在中间层具有更强的判别能力。然而,由于梯度竞争问题,在中间表征上直接添加损失层时,它存在着优化矛盾。为了解决这个问题,**我们为每个中间损失添加一个瓶颈层,**我们发现这适用于稳健的优化。通过这种方式,特征在整个网络中被深度监督,这也有利于转移性。
contrastive参数的模型层,是在最后一层-和模型结果密切的高层还是在模型的浅层——学习到低级信息的layer做参数更新?
论文中还考虑参数反向更新的问题,如果是对模型中的多个layer做参数更新,怎么实现反向传递?
虚假事实检测
GPTs at Factify 2022: Prompt Aided Fact-Verification
这篇文章感觉没什么营养价值。是对一个五分类的数据集,用prompt实现,先是做了1对4的分类,在做了四分类。
打算看看?https://zhuanlan.zhihu.com/p/285770986 这篇,也是在讲虚假事实的。