【论文精读】Improving Simple Models with Confidence Profiles

Improving Simple Models with Confidence Profiles

原文地址:Improving Simple Models with Confidence Profiles

Abstract

用ProWeight方法进行模型迁移,使用linear probes通过flattened intermediate representations生成confidence score。在使用中间层的confidence scores的简单模型的训练过程中对样本进行理论上合理的加权。在CIFAR-10上,这个weighting method用一个复杂的Resnet一小部分得到了3-4%的提升;在一个生产问题中使用作者方法,CART模型的精度提升了13%。

1 Introduction

作者提出三个原因用来解释为什么关注提高简单模型:

  • 某些领域专家的偏好:一些领域的专家有一些自己喜欢用的模型。
  • 可用的数据很少:避免过拟合,提供insight,使用预训练的模型进行迁移也很可取。
  • 资源有限:当电力内存受限时,简单模型更可取。

之前提到的linear probes就是logistic分类器,添加到预训练网络中的中间层,以便从该层获取预测。通过这些confidence scores和probe的输出所构成的confidence profile来weight样本来帮助简单模型的训练。作者先后尝试了area under the curve (AUC)和神经网络来学习这些weights。

这种weight样本的思想和curriculum learning类似,就是首先关注那些比较容易学习的样本。

2 General Framework

这里的思想就是得到那些容易训练(easier)的样本去训练,可以通过area under the curve (AUC)算法确定easier的样本,由此可以得到用来训练简单模型的数据集 D S D_S DS每个样本的权重 W = { w 1 , . . . , w m } W=\{w_1,...,w_m\} W={w1,...,wm}。那么优化问题变为:

在这里插入图片描述

其中 λ ( ⋅ , ⋅ ) \lambda(\cdot,\cdot) λ(,)是损失函数, B \mathcal{B} B是参数空间, C \mathcal{C} C是权重向量 w w w存在的空间,对权重大小进行了限制以避免权重全为零的解出现。

2.1 Algorithm Description

首先在 D N D_N DN上训练一个复杂的模型, R u ( x ) R_u(x) Ru(x)就是flattened的表征(可能就是说把复杂网络这一层的信息都集中到了 R u ( x ) R_u(x) Ru(x)中,相当于flattened了),那么:

在这里插入图片描述

σ ( ⋅ ) \sigma(\cdot) σ()是softmax, k k k是类别数,在数据集 D N D_N DN上进行训练。 P u ( R u ( x ) ) [ y ] ∈ [ 0 , 1 ] P_u(R_u(x))[y]\in[0,1] Pu(Ru(x))[y][0,1]就是标签 y y y的confidence score。

教师的精度也决定了学生表现的好坏,教师提供的probe confidence scores不能总是太好,也不能总是太差。

ProWeight算法在Algorithm 1中展示步骤(5)计算权重可以使用AUG算法(Algorithm 2),或是将confidence scores作为输入的正则化神经网络,正则项为 R ( w ) = ( 1 m Σ i = 1 m w i − 1 ) 2 R(w)=(\frac{1}{m}\Sigma^m_{i=1}w_i-1)^2 R(w)=(m1Σi=1mwi1)2,并且神经网络在batch上训练,正则项要计算所有的样本。然后使用weights在 D S D_S DS上训练简单样本就好了。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2.2 Theoretical Justification

这里用了importance weighting的思想,得出:

在这里插入图片描述

3 Experiments

主要有两个实验,一个在CIFAR-10上,一个在芯片制造厂商的数据集上。还跟蒸馏(distillation)方法对比了。

3.1 CIFAR-10

复杂网络使用了15个Resnet单元。简单网络使用了复杂网络的一部分,但初始的卷积层,和最后的平均池化层和全连接层都一样,四个简单模型的体积分别是复杂网络的1/5,1/3,1/2,2/3。结果如下:

在这里插入图片描述

这里作者中指出,复杂模型的精度太高对简单模型weights的确定也不利,这样会使得 w w w全部接近于1,即不利于区分那些样本容易学习。

3.2 Manufacturing

在另外一个预测芯片刻蚀质量的实验中也表现出了不错的效果,有兴趣的可以看一下原文中的Setup。

在这里插入图片描述

4 Related Work and Discussion

这里作者将ProfWeight和其他相关的迁移方法相比较,与Distillation相比,ProfWeight对于模型的适应性更强,因为它只需要对样本进行Weighting,适用于几乎所有的模型,而且相比Distillation,占用的资源更少;相比Curriculum Learning,Weighting过程是通过在复杂网络上训练Probes自动进行的,不需要人工设计;Boosting方法跟ProfWeight差异比较大。

未来的工作中作者提到要研究一下使用Weighted样本对训练简单模型的时间的影响,同时也要探索更多的weighting的策略。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
东南亚位于我国倡导推进的“一带一路”海陆交汇地带,作为当今全球发展最为迅速的地区之一,近年来区域内生产总值实现了显著且稳定的增长。根据东盟主要经济体公布的最新数据,印度尼西亚2023年国内生产总值(GDP)增长5.05%;越南2023年经济增长5.05%;马来西亚2023年经济增速为3.7%;泰国2023年经济增长1.9%;新加坡2023年经济增长1.1%;柬埔寨2023年经济增速预计为5.6%。 东盟国家在“一带一路”沿线国家中的总体GDP经济规模、贸易总额与国外直接投资均为最大,因此有着举足轻重的地位和作用。当前,东盟与中国已互相成为双方最大的交易伙伴。中国-东盟贸易总额已从2013年的443亿元增长至 2023年合计超逾6.4万亿元,占中国外贸总值的15.4%。在过去20余年中,东盟国家不断在全球多变的格局里面临挑战并寻求机遇。2023东盟国家主要经济体受到国内消费、国外投资、货币政策、旅游业复苏、和大宗商品出口价企稳等方面的提振,经济显现出稳步增长态势和强韧性的潜能。 本调研报告旨在深度挖掘东南亚市场的增长潜力与发展机会,分析东南亚市场竞争态势、销售模式、客户偏好、整体市场营商环境,为国内企业出海开展业务提供客观参考意见。 本文核心内容: 市场空间:全球行业市场空间、东南亚市场发展空间。 竞争态势:全球份额,东南亚市场企业份额。 销售模式:东南亚市场销售模式、本地代理商 客户情况:东南亚本地客户及偏好分析 营商环境:东南亚营商环境分析 本文纳入的企业包括国外及印尼本土企业,以及相关上下游企业等,部分名单 QYResearch是全球知名的大型咨询公司,行业涵盖各高科技行业产业链细分市场,横跨如半导体产业链(半导体设备及零部件、半导体材料、集成电路、制造、封测、分立器件、传感器、光电器件)、光伏产业链(设备、硅料/硅片、电池片、组件、辅料支架、逆变器、电站终端)、新能源汽车产业链(动力电池及材料、电驱电控、汽车半导体/电子、整车、充电桩)、通信产业链(通信系统设备、终端设备、电子元器件、射频前端、光模块、4G/5G/6G、宽带、IoT、数字经济、AI)、先进材料产业链(金属材料、高分子材料、陶瓷材料、纳米材料等)、机械制造产业链(数控机床、工程机械、电气机械、3C自动化、工业机器人、激光、工控、无人机)、食品药品、医疗器械、农业等。邮箱:market@qyresearch.com

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值