Cost-effective training of deep CNNs with active model adaptation

最新推荐文章于 2022-05-23 16:24:21 发布

木呆呆瓶子

最新推荐文章于 2022-05-23 16:24:21 发布

阅读量528

点赞数

分类专栏：增量学习主动学习

增量学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

主动学习

1 篇文章 0 订阅

订阅专栏

KDD2018，作者：Sheng-Jun Huang, Jia-Wei Zhao, Zhao-Yang Liu
将论文中的主要算法流程翻译过来，方便以后使用
注：这不是标准的算法流程，为了方便，将算法中的公式直接写入到流程中了。
ADMA算法流程：
输入：
$U$ : 实例 $n_u$ 的无标签数据集
$M^0$ ：预训练模型
$A$ ：特征训练的初始化层的层号
$B$ ：特征训练的最终层的层号
$Z$ ：在原任务中用来训练模型 $M^0$ 的数据集
初始化：
找到数据集 $Z$ 中 $k$ 类的每一类的中心 $C={c_1,...,c_k}$ ；
得到 $c^A_k$ 和 $c^B_k$ ：在层 $A$ 和 $B$ 时 $c_k$ 的输出
根据等式计算 $S^A_C$ 和 $S^B_C$ 的值，公式如下：
$S^A_C=\begin{bmatrix} S^A_{c_1} & S^A_{c_2} & ... & S^A_{c_k} \end{bmatrix} =\begin{bmatrix} \begin{Vmatrix} c^A_1-c^A_1 \end{Vmatrix}^2 & \begin{Vmatrix} c^A_2-c^A_1 \end{Vmatrix}^2& ... &\begin{Vmatrix} c^A_K-c^A_1 \end{Vmatrix} ^2\\ \begin{Vmatrix} c^A_1-c^A_2 \end{Vmatrix} ^2& \begin{Vmatrix} c^A_2-c^A_2 \end{Vmatrix} ^2& ... & \begin{Vmatrix} c^A_K-c^A_2 \end{Vmatrix} ^2\\ ... &... & ... & ...\\ \begin{Vmatrix} c^A_1-c^A_K \end{Vmatrix} ^2& \begin{Vmatrix} c^A_2-c^A_K \end{Vmatrix}^2 & ... & \begin{Vmatrix} c^A_K-c^A_K \end{Vmatrix}^2 \end{bmatrix}$
计算 $S^{A\rightarrow B}=S^A_C-S^B_C$
重复：
$\quad each \quad instance \quad x \in U$
$\quad$ 得到 $x^A_k$ 和 $x^B_k$ 的值：即 $x$ 在 $A$ 和 $B$ 层的输出
$\quad$ 根据公式计算 $S^A_x$ 和 $S^B_x$ 的值，公式如下：
$s^A_x=\begin{bmatrix} \begin{Vmatrix} x-c^A_1 \end{Vmatrix} ^2\\ \begin{Vmatrix} x-c^A_2 \end{Vmatrix} ^2 \\ ... \\ \begin{Vmatrix} x-c^A_K \end{Vmatrix} ^2 \end{bmatrix}$
$\quad$ 计算 $S^{A\rightarrow B}_x=S^A_x-S^B_x$
$\quad$ 根据加权和 $S^{A\rightarrow B}_C$ 计算 $\hat{S}^{A\rightarrow B}_x$
$\quad$ 计算样本独特性 $Distinctiveness(x)=\frac{1-\tau \left(S^{A\rightarrow B}_x,\hat{S}^{A\rightarrow B}_x \right)}{2}$
$\quad$ 根据公式计算样本的不确定性，（信息熵）公式如下：
$Uncertainty(x)=-\sum_{K^{'}=1}^{K^{'}}p\left ( M\left ( x \right )=k^{'} \right )\cdot \left ( 1-p\left ( M\left ( x \right )=k^{'} \right ) \right )$
其中， $M$ 是当前的模型， $p\left ( M\left ( x \right )=k^{'} \right )$ 是 $x$ 基于模型 $M$ 预测的属于类别 $k^{'}$ 的可能性
$\quad$ 根据公式计算评判的标准分数，公式如下：
$score(x)=(1-\lambda \cdot t)\cdot distinctiveness(x) +\lambda \cdot t\cdot uncertainty(x)$
其中， $t$ 是迭代次数
$End\quad for$
从 $U$ 中选择具有最大分数的一批数据 $Q$
查询 $Q$ 的标签，并且将 $Q$ 从 $U$ 中移除
使用已经查询到标签的数据微调模型 $M^{t-1}$ 得到模型 $M^{t}$
直到达到查询预算（query budget)或者期望效果(expected performance)
注：计算 $\hat{S}^{A\rightarrow B}_x$ 的公式：
$S^{A\rightarrow B}_{c_k}=S^{A}_{c_k}-S^{ B}_{c_k}$
我们尝试通过x线性特征联合
$\hat{S}^{A\rightarrow B}_x=\sum_{k=1}^{K}\alpha_k(x)\cdot S^{A\rightarrow B}_{c_k}$
$\alpha_k(x)$ 是第k个中心的权重，就是在原模型上x属于k类的概率
$\alpha_k(x)=p(M^0(x)=k)$

木呆呆瓶子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Cost-effective training of deep CNNs with active model adaptation

KDD2018，作者：Sheng-Jun Huang, Jia-Wei Zhao, Zhao-Yang Liu将论文中的主要算法流程翻译过来，方便以后使用注：这不是标准的算法流程，为了方便，将算法中的公式直接写入到流程中了。ADMA算法流程：输入：UUU:nun_unu：实例的无标签数据集M0M^0M0：预训练模型AAA：特征训练的初始化层的层号BBB：特征训练的最终层的层号Z...
复制链接

扫一扫