点击蓝字 · 关注我们
来源:《 计算机科学与应用》 ,作者汪槐沛等
关键词: 标签比例学习;数据挖掘;迁移学习
摘要:
摘要: 标签比例学习问题是一项仅使用样本标签比例信息去构建分类模型的挖掘任务,由于训练样本不充分,现有方法将该问题视为单一任务,在文本分类中的表现并不理想。考虑到迁移学习在一定程度上能解决训练数据不充分的问题,于是如何利用历史数据(原任务数据)帮助新产生的数据(目标任务数据)进行分类显得异常重要。本文提出了一种基于标签比例信息的迁移学习算法,将知识从原任务迁移到目标任务,帮助目标任务更好构建分类器。为了获得迁移学习模型,该方法将原始优化问题转换为凸优化问题,然后解决对偶优化问题为目标任务建立准确的分类器。实验结果表明,大部分条件下所提算法性能优于传统方法。
1. 引言
在传统监督学习的分类问题中,已知所有样本的标签,分类器可以通过大量样本属性及其标签学习得到,进而利用学习得到的分类器对未知标签的样本进行预测。但在实际应用中,通过人工标注获取样本标签需要较高成本,或者受限于隐私等客观条件,有时无法获取所有样本的标签,而仅仅已知各类样本的标签比例信息,比如在匿名投票中,只能知道反对票和赞成票的比例。因此,在已知样本标签比例信息的前提下,以多个样本组成的包为单位,基于包内样本和包的标签比例信息来训练从而获取样本层面的分类器,更加具有实用价值。
近年来,标签比例学习 [1] [2] (Learning with Label Proportions, LLP)在数据挖掘引起了广泛的关注,并成功应用于现实生活中的许多领域,如欺诈识别、银行重要客户识别、垃圾邮件过滤、视频事件检测、收入预测、视觉特征建模等。在标签比例学习问题中,只知道每个包中属于不同类别的样本的比例,但是样本的标签是未知的,它基于包层面的标签比例信息解决了样本层面的分类问题。
迁移学习(Transfer Learning) [3] [4] 是可以将知识从原任务(Source task)迁移到目标任务(Target task)的一种新的机器学习方法,其运用已存有的知识对不同但相关领域问题进行求解,迁移的知识可以帮助目标任务建立迁移学习分类器以进行预测。然而,大多数现有的方法都没有考虑实践中从原任务到目标任务的知识迁移,将标签比例学习视为单一任务,无法解决迁移学习问题。
综上所述,本文针对标签比例学习问题,为了训练得到更准确的分类器,提出了一种基于标签比例信息的迁移学习算法(label proportion information-based transfer learning method, LPI-TL),该方法可以利用迁移学习将知识从原任务迁移到目标任务,帮助目标任务构建分类器。首先为了帮助目标任务学习预测模型,本文提出了一种迁移学习模型,然后使用拉格朗日方法将方法的原始问题转换为凸优化问题并求解,最后获得目标任务的预测分类器。实验结果表明,本文方法在标签比例问题上能取得更好的性能。
本文主要贡献如下:
1) 结合支持向量回归算法提出了基于标签比例信息的迁移学习模型,该模型可以利用迁移学习将知识从原任务迁移到目标任务。
2) 利用拉格朗日方法将原始目标模型转换为凸优化问题,并获得原任务和目标任务的预测模型。
3) 在多个数据集上进行广泛实验,并与现有算法进行对比,验证了提出算法的有效性。
2. 问题描述与相关工作
2.1. 问题描述
在标签比例学习问题中,一个包内含有多个样本,仅知道包中不同类别样本的标签比例信息。本文定义包的标签比例为包中正样本的比例。假设给定的原任务数据集为 D={x1,x2,⋯,xn}D={x1,x2,⋯,xn},则每个样本xi所对应的标签yi未知,数据会被分为t1个互相独立的包 (BsI,PsI),I=1,2,⋯,ti(BIs,PIs),I=1,2,⋯,ti,其中 BsIBIs 和 PsIPIs 分别表示原任务数据集的第I个包和包中正样本的比例 PsI=∣∣{xi∈BsI:yi=1}∣∣/∣∣BsI∣∣PIs=|{xi∈BIs:yi=1}|/|BIs|,同理,目标任务数据集用 (BtJ,PtJ),J=1,2,⋯,t2(BJt,PJt),J=1,2,⋯,t2 表示。
对于二元分类问题,标签比例学习任务是学习一个分类器将未知标签样本分为正类或负类。如图1所示:图左边的黑色椭圆表示包,黑色圆圈表示未标记的样本。在图的右边,加号“+”和减号“−”分别表示分类后的正样本和负样本,实线表示由标签比例和未标记的样本训练得到的分类器。