【论文阅读】2018-A Selective Multiple Instance Transfer Learning Method for Text Categorization Problems

Windingd

已于 2022-05-01 22:06:04 修改

阅读量357

点赞数 1

分类专栏：论文阅读文章标签：机器学习人工智能

于 2022-03-03 21:29:01 首次发布

本文链接：https://blog.csdn.net/qq_43505356/article/details/123263092

版权

论文阅读专栏收录该内容

21 篇文章 1 订阅

订阅专栏

题目

A Selective Multiple Instance Transfer Learning Method for Text Categorization Problems
一种针对文本分类问题的选择性多示例迁移学习方法
Knowledge-Based Systems 2018

摘要

多示例学习 (MIL) 是监督学习的推广，它试图从实例包中学习一个独特的分类器。本文解决了文本分类问题的基于迁移学习的多示例方法的问题。
为了提供从源任务到目标任务的知识安全迁移，本文提出了一种新方法，称为选择性多示例迁移学习（SMITL），它选择多示例迁移学习将在第一步中工作的情况，并且然后在第二步中构建一个多示例迁移学习分类器。
具体来说，在第一步中，我们通过调查两个任务的正特征的相似性来衡量源任务和目标任务是否相关。在第二步中，我们构建了一种基于迁移学习的多示例方法，如果在第一步中发现两个任务相关，则将知识从源任务转移到目标任务。
我们提出的方法明确地解决了文本分类问题上多实例学习的知识安全转移问题。大量实验表明，对于大多数数据集，SMITL 可以确定这两个任务是否相关，并且优于经典的多示例学习方法。

引入

现有MIL问题的分类：

1）包级：直接对包进行操作
2）实例级：推断隐藏的实例标签，根据实例标签计算包标签

本文方法

第一步：我们从两个任务的正包中提取正特征，提出相似度评估方法来衡量两个任务的正面特征的相似度，它可以调查两个任务是否相关。
第二步：若两个任务相似，提出一个新的多实例迁移学习分类器。将知识从源任务迁移到目标任务。然后，我们提出了一个替代框架来提供多实例迁移学习分类器。

符号系统

Nonation	Mean
$B_I$	第 $I$ 个包
$Y_I$	包标签
$x_i$	第 $i$ 个实例
$y_i$	实例标签
$S$	源任务
$T$	目标任务
$B_I^S,Y_I^S)$	源任务训练集
$B_J^S,Y_J^S)$	目标任务训练集
$Y^s\vert$	源任务训练集包的个数
$Y^t\vert$	目标任务训练集包的个数

对实例定义一个数据模型：
$\{\bold{x},m^+(\bold{x}),m^-(\bold{x)}\}$
$m^+(\bold{x}),m^-(\bold{x})$ 表示实例 $\bold{x}$ 对正类和父类的相似性，基于这个模型，将多示例迁移学习问题转化为单实例问题。

算法

第一步：源任务与目标任务的相似性评估

原因：若两个任务的正特征相似，则两个任务相似。相似才有助于知识迁移。所以从两个任务的正包中提取正特征并评估相似性
步骤：

（1）正特征提取

$S_s^+=\{\bold{x}_1,\dots,\bold{x}_{|S_s^+|}\}$ ：S正包所有实例
$S_s^-=\{\bold{x}_1,\dots,\bold{x}_{|S_s^-|}\}$ ：S负包所有实例
$VP_s$ ： $S_s^+$ 的一组正特征（在正包（ $S_s^+$ ）中频繁出现而在负包（ $S_s^-$ ）中出现频率较低的正特征）
$n_{S_s^+}(f_k)$ ：在 $S_s^+$ 中包含特定特征 $f_k$ 的实例数量
$n_{S_s^-}(f_k)$ ：在 $S_s^-$ 中包含特定特征 $f_k$ 的实例数量
$\text{max}_{S_s^+}$ ：在 $S_s^+$ 中出现最多的 $f_k$ 的实例数量
$\text{min}_{S_s^+}$ ：在 $S_s^+$ 中出现最少的 $f_k$ 的实例数量
$\text{max}_{S_s^-}$ ：在 $S_s^-$ 中出现最多的 $f_k$ 的实例数量
$\text{min}_{S_s^-}$ ：在 $S_s^-$ 中出现最少的 $f_k$ 的实例数量
$V_s$ ：源目标的特征集
$H_s(f_k)$ :特征 $f_k$ 的特征强度
$\theta_s$ :特征集 $V_s$ 中每个特征强度之和的平均值
$G_s$ :正特征集 $VP_s$ 中每个特征强度之和的平均值

原理：特征强度越高对分类越有效；所以通过测量 $S_s^+$ 和 $S_s^-$ 之间的归一化示例频率的差异来计算特定特征 $f_k$ 的特征强度。
How:选取在正包中出现更多，负包中出现更少的特征，为此设计了以下特征强度指标：
$H_s(f_k)=\frac{n_{S_s^+}(f_k)-\text{min}_{S_s^+}}{\text{max}_{S_s^+}-\text{min}_{S_s^+}}-\frac{n_{S_s^-}(f_k)-\text{min}_{S_s^-}}{\text{max}_{S_s^-}-\text{min}_{S_s^-}}$
若 $H_s(f_k)$ > $\theta_s$ ，则为正特征
$\theta_s=\frac{1}{\vert V_s\vert}\sum_{f_k \in V_s}H_s(f_k)$
接着，
$G_s=\frac{1}{\vert VP_s\vert}\sum_{f_k \in VP_s}H_s(f_k)$
结果：
源任务： $VP_s$ 、 $G_s$
目标任务： $VP_t$ 、 $G_t$

（2）相似性评估
对于集合 $VP_s\cup VP_t$ (之前是 $V_s$ ),通过上述公式计算每一个特征的特征强度 $H_c(f_k)$ ;
$G_c$ : $VP_s\cup VP_t$ 中所有特征强度的平均值
$G_c=\frac{1}{\vert VP_s\cup VP_t \vert}\sum_{f_k \in VP_s\cup VP_t}H_c(f_k)$
接着，
$\eta=\frac{G_c}{\text{min}(G_s,G_t)}$
$\eta$ 越小越相关，若大于1则不相关。为什么哦？

第二步：选择性多示例迁移学习分类器构建

对于源任务(目标任务同样)：
$S_p^{s+}$ ：每个正包中选出一个正候选实例，membership（类别）设置为+1
$S_a^{s+}$ ：在正包中除候选实例以外的剩余实例，双重membership $(m^+(\bold{x_i}),m^-(\bold{x_i}))$
$S_n^{s-}$ ：负包中的所有实例，类别设置为-1
$S^{s'}=S_p^{s+} \cup S_a^{s+}$
$S^{s''}=S_a^{s+} \cup S_n^{s-}$
正候选的选择：与正包具有较高相似度而与负包具有较低相似度
相似度定义：
$R(\bold{x},S)=\frac{1}{2}\mathop{\sum}\limits_{\bold{x}_i\in S}e^{-{\| \phi(\bold{x})-\phi(\bold{x}_i)\|}}$
正候选的选择：
$\mathop{\text{argmax}}\limits_{\bold{x} \in {B}_I:Y_I=1}\frac{1}{2}(R(\bold{x},S_s^+)+1-R(\bold{x},S_s^-))$
$S_a^{s+}$ 中membership计算：
$m_s^+(\bold{x_i})=\frac{1}{2}(R(\bold{x},S_p^{s+})+1-R(\bold{x},S_n^{s-}))$
$m_s^-(\bold{x_i})=\frac{1}{2}(R(\bold{x},S_n^{s-})+1-R(\bold{x},S_p^{s+}))$
基于源任务 $S_p^{s+}、S_a^{s+}、S_n^{s-}、S^{s'}、S^{s''}$ 和目标任务 $S_p^{t+}、S_a^{t+}、S_n^{t-}、S^{t'}、S^{t''}$ 构建多示例迁移学习分类器

构建一个基于SVM的分类器将知识从源任务迁移到目标任务。
在源任务上训练SVM： $f_1=\bold{w_1}.\phi(\bold{x})+b_1$
在目标任务上训练SVM： $f_2=\bold{w_2}.\phi(\bold{x})+b_2$
$\bold{w}_1=\bold{w}_0+\bold{v_1}$ , $\bold{w}_2=\bold{w}_0+\bold{v_2}$ ,其中 $\bold{w_0}$ 是公共参数， $\bold{v}_1$ , $\bold{v}_2$ 是特定参数；
优化过程：
（1）每一轮首先通过优化目标获得拉格朗日乘数 $\alpha^{l}$ ；
（2）再遍历源任务（目标任务）的每个正包中的每个实例，来更新 $S_p^{s+}$ 、 $S_p^{t+}$ ；
（3）基于 $\alpha^{l}$ 和更新后的正候选，求得值 $F^{(l)}=F(\alpha^{(l)})$ , 然后 $l = l + 1$ ,进行下一轮；
（4）如此迭代直到 $\vert F^{(l)}-F^{(l-1)}\vert \epsilon F^{(l)}$ ，返回( $\bold{w_0},\bold{v}_1,\bold{v}_2,b_1,b_2$ )。
交替优化拉格朗日乘数 $\alpha$ 与正候选 $S_p^{s+}$ 、 $S_p^{t+}$ ，使得 $F (.)$ 的值最小， $F (.)$ 的值在整个优化过程中单调递减；最后得到( $\bold{w_0},\bold{v}_1,\bold{v}_2,b_1,b_2$ )。
第（2）步更新过程：
遍历每个正包中的每个实例，设当前实例为正候选，更新 $S_p^{s+}、S_a^{s+}$ ;
利用当前轮的 $\alpha^{l}$ ，计算 $F$ 值，记作 $F(\bold{x}_i)$ ；
从每个包中选择出新的正候选 $\mathop{\text{argmax}}\limits_{\bold{x} \in B_I}F(\bold{x}_i)$
优化目标如下：
在这里插入图片描述

实验

对比算法：mi-SVM、SMILE、SubMIL、MITL
指标：准确性
数据集：Newsgroups、Reuters-21578（Reuters 新闻通讯文章）、Web-KB
文本数据集最初并不是为评估多示例学习和迁移学习而设计，重新组织原始数据，以解决迁移多示例学习问题
Newsgroups:包含几个顶级类别，顶级类别下有20个子类别，每个子类别有1000个样本；每个新闻视作一个实例，几个新闻组成包；其中来自正类和其他类别的实例构成一个正包；负包从除正类别外的其他类别中随机生成；源任务生成1500个包、目标任务选择另一类别为正类的并生成800个包
Reuters-21578:（Reuters 新闻通讯文章）：分为5个顶级类别，每个类别包含不同的子类别；将A类别下的子类别分为A（1）、A（2）；A(1)中文档作为正类，除A之外其他类别中选择文档作为负包
Web-KB：将类别（A）随机分成两部分A(1) 和 A(2)，分别组织源任务和目标任务的正包。对于源任务和目标任务的负包，我们从除 (A) 之外的其他类别中随机选择文档。将随机噪声添加到 A(2) 的特征中，将其视为相关任务。以类似的方式，我们从不同类别（命名为（A）和（B））生成源任务和目标任务的正包，获得不相关的任务。
在这里插入图片描述

实验结果

由于迁移学习假设没有足够的目标任务训练数据，所以对于目标数据集，随机选择10%左右组成训练集。

相关任务上的性能比较：8对源任务和目标任务，每一对正类属于同一个顶层类别
非参数统计Wilcoxon 检验：每一个比较算法与SMITL有一个测试值，如果测试值低于置信水平0.05，则SMITL与比较算法存在显著差异
不相关任务的性能：SMITL 与 SMILE 一样，在目标分类器上构造一个分类器，并报告与 SMILE 方法相同的性能
数据集迭代期间的错误率：总是收敛于或接近最佳性能点，那里的收敛速度非常快。 SMITL 在大多数数据集上的迭代不到 10 次

Future work

设计一种更好的机制，通过考虑包数据分布来确定源任务和目标任务之间的相似性
设计一个有效的解决方案来加速其他数据类型的选择转移多实例学习方法

Windingd

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】2018-A Selective Multiple Instance Transfer Learning Method for Text Categorization Problems

摘要多实例学习 (MIL) 是监督学习的推广，它试图从实例包中学习一个独特的分类器。本文解决了文本分类问题的基于迁移学习的多实例方法的问题。为了提供从源任务到目标任务的知识安全迁移，本文提出了一种新方法，称为选择性多实例迁移学习（SMITL），它选择多实例迁移学习将在第一步中工作的情况，并且然后在第二步中构建一个多实例迁移学习分类器。具体来说，在第一步中，我们通过调查两个任务的积极特征的相似性来衡量源任务和目标任务是否相关。在第二步中，我们构建了一种基于迁移学习的多实例方法，如果在第一步中发现两个任务
复制链接

扫一扫