深兰科技·技术冲击波|异构数据的无监督表示学习

      本文由深兰科学院撰写。继上一期文章为大家简要展示了现实生活中数据的混合异构性,并介绍了我们提出的一种混合数据表示学习器Mix2Vec,本次文章将为大家详细介绍Mix2Vec的理论基础和设计方法。

01混合异构数据表示学习的目标和机制

 

图1 Mix2Vec学习目标和机制

1.1随机混洗预测(RSP)

 

1.2先验分布匹配(PDM)

1.3结构性信息最大化(SIM)

1.4目标函数

02实验评估和验证

       在本节中,将从原数据和数据表示之间的互信息、数据表示的信息量、具体下游任务(分类和聚类)以及可视化方法,对Mix2Vec进行全面的评估和验证,其中为了印证Mix2Vec学习到的数据表示能够提升基于距离度量的案例推理系统的性能,实验中采用的具体下游任务方法为同样基于距离度量的 kNN 分类方法和 k-­means 聚类方法。

1评价指标

在实验中,将采用如下三个方面来定量评估Mix2Vec生成的表示形式的质量:

(1)原始输入与由Mix2Vec生成的数据表示之间的相互信息是否最大化;

(2)数据表示的结构性信息是否最大化;

(3)Mix2Vec是否可以提高下游学习任务的学习性能。

       同时,进一步定性显示学习到的数据表示的可视化效果,探究Mix2Vec数据表示的特性和结构。

2实验数据集

       本实验中,采用包含了不同数据特征的四个异构混合数据集进行了实验验证,包括:Churn:用于预测流失的客户的大型数据集[1],统计了用户的人口统计信息、账户信息、注册服务信息以及用户的行为标签(即是否近一个月内流失);Adult:此数据来源于美国的人口普查数据[2],其中包含了统计人群的年龄、教育水平、职业等信息,其中用户的收入级别作为该数据的标签信息;MovieLens-­1M:简写为M1M,大型推荐数据集[3],其中包含三个数据文件:1)打分信息–记录用户对电影的评分;2)用户信息–记录用户的人口统计信息;3)电影信息–包含电影的名称、类别等信息;Taobao:从淘宝网收集的大型广告预测数据集[4],该数据包含了三个文件:1)销售信息表–记录不同客户的购买商品情况;2)客户信息表–统计了客户的注册时的一些相关信息;3)商品信息表–包含了商品的列别、价格等信息。

       所有这些数据集都包含数值型和类别型两种属性,其中Adult仅包含静态数据,而其他数据集同时包含静态和动态数据。在表1中总结了这些数据集的特征,其中标题中的字母S,D,C和N分别表示静态、动态、类别型和数字型属性,这些具有不同特征的数据集将用于模拟引言中描述的数据特征和学习挑战,评估和测试Mix2Vec的表示性能。

 

表1 混合异构数据的特征

[1]https://www.kaggle.com/lclave/customer­churn

[2]https://archive.ics.uci.edu/ml/machine­learning­databases/adult

[3]https://grouplens.org/datasets/movielens/

[4] https://tianchi.aliyun.com/dataset/

对比方法

       本实验中选择了6个最新的无监督表示学习方法与Mix2Vec进行了比较,这些方法包括:

1.变分自动编码器(Variational Autoencoder,VAE)

       一种无监督的生成模型,在传统的自动编码器结构上,引入噪声(通常为高斯噪声)来使得解码器对于数据中的噪声具有鲁棒性。

2.β­-变分自动编码器(β­-VAE)
       基于变分自动编码器,在拟合的隐含变量的后验概率和其先验概率的KL散度正则项上增加约束条件,从而增强VAE模型学习解纠缠表示的能力。

3.对抗自动编码器(Adversarial Autoencoder,AAE)

       在自动编码器的结构上,引入判别器,将编码器的输出作为判别器的输入,通过对抗训练的方法迫使自动编码器中编码器输出匹配某一特定分布,可以有效解决生成对抗网络不适用于离散输入的问题。

4.双向生成对抗网络(Bidirectional Generative Adversarial Networks,BiGAN)

       一种双向生成对抗网络,通过额外增加一个编码器将原始数据编码为潜在表示,将该表示连同生成器的输出一起作为判别器的输入。该方法能够有益于附属的有监督判别任务。

5.噪声目标估计(Noise As Targets,NAT)

       一种无监督的表示学习方法,通过将学习到的表示与无信息的随机分布(噪声)对齐,使得学习到的表示与原始输入的互信息最大化的目的。

6.深度信息最大化表示(DeepInfo Max,DIM)

       一种无监督深度表示学习模型,通过直接最大化输入和表示之间的互信息,来学习包含有足够原始输入信息的表示。

7.实验结果和分析

       本节将根据前面讨论的三个评估方面,对Mix2Vec和对比方法进行了评估。

1验证输入和表示之间的相互信息

       本节中将采用MINE来评估输入和学习的表示之间的相互信息。为了适应混合数据的特性,实验将Mix2Vec神经网络结构设置为与MINE中的相同,借鉴Belghazietal,实验在MINE估算过程中将批量大小设置为100。实验结果展示在表2中,其报告了MINE估算的不同方法的互信息,其中每个数据集的最高互信息加粗突出显示,在∆中报告了Mix2Vec相比最佳的对比方法的性能提升的比例,表中同时统计了每种方法的平均排名(AR),以评估其总体性能排名。

表2原始输入和无监督表示器生成的数据表示之间的相互信息

       结果表明,Mix2Vec可以在每个数据集的原始输入及其表示之间提供大量的互信息。与其他方法相比,Mix2Vec的AR为1.00,与BiGAN相比提高了1.25,而BiGAN在最新方法中具有最高的互信息排名。这表明Mix2Vec可以有效地捕获原始信息并将其嵌入数据表示中,在具有许多类别型属性的数据集上,Mix2Vec显着增加了互信息,例如在Adult上与表现最佳的BiGAN相比增加了45.04%,这表明Mix2Vec中的随机混洗预测对类别型属性值效果很好,适合处理类别型属性。

2验证Mix2Vec增强的分类任务

       实验中选择两个比较受欢迎的方法:(1)用于分类的k­-最近邻居(kNN;此处k设置为5);(2)用于聚类的k­-means。

       对于分类,采用蒙特卡洛交叉验证将数据集划分为训练集和测试集,以在很大程度上保留混合数据中的异构分布,具体来说,此实验从每个数据集中随机选择90%的对象进行训练,并将其余部分用于测试,并且20次随机采样迭代生成了20组训练和测试数据集用于实验(对于分类和聚类,都使用F­-score来评估学习效果)。表3中报告了所有表示方法应用于kNN上后分类性能。对于每个数据集,报告了20个随机划分的训练集上kNN的平均F­-score得分,每个数据集上最高F­-score以粗体突出显示,该表中同时报告了性能改进∆和每种方法的平均排名。

       实验中kNN结果表明,与最先进的方法相比,Mix2Vec的表示方法可实现2.00的最佳排名。由于kNN中的k值很小,结果还说明了Mix2Vec能够表示单个对象的信息以及其附近对象的分布。实际上,如果数据表示能够在kNN(k较小)实现更好的分类性能,代表对应学习到的数据表示具有更强的表示局部信息的能力,例如,Mix2Vec在Churn上明显优于其的对比方法。Mix2Vec在具有大量动态属性的混合数据上具有更好捕获局部信息的能力,这主要取决于随机混洗预测的贡献。

表3 不同无监督表示器输出表示在kNN上的分类F-­Score比较

3验证Mix2Vec增强的聚类任务

       表4中报告了通过不同的表示方法实现的k-­means聚类性能。为了介绍k­-means聚类的随机性,实验中在每个数据集上为每个表示器重复k­-means试验100次,并在表4中报告这100组结果中最高的F­-score、Mix2Vec较对比方法性能提高∆和每个方法的平均排名AR,每个数据集的最佳 F­-score以粗体突出显示。

       从表中结果表明,Mix2Vec平均排名为为1.50,与最先进的表示方法相比,具有最佳性能(平均排名提高了至少1.25)。k­均值聚类所需的表示属性与kNN分类所需的表示属性非常不同。从此处结果来看,由k­-means评估的表示性能补充了由kNN所代表的性能,k-­means意味着完全是无监督的任务,而kNN则引入了标签信息。因此,出色的k-­means结果需要对数据分布有充分的先验知识,才能生成适当的数据表示。与其他也涉及先验分布匹配的竞争对手(即NAT和DIM方法)相比,Mix2Vec进一步引入了结构信息最大化的目标,以规范化和增强假定的先验分布,这种正则化使Mix2Vec表示方法对于下游任务具有良好的表示属性,即使假定的先验分布不适当也是如此。

       因此,Mix2Vec在某些数据集(例如在Adult上的F-­score为16.27%和在M1M上F­-score为5.89%)上获得了明显更好的性能,与NAT和DIM相比,假定的先验分布可能不合适,并且NAT和DIM取得客官的聚类性能也大概率由于假定的先验分布可能合适的其他数据集的原因;其次,k-means聚类反映了一种表示全局信息(即整个数据的分布)的能力。从表中结果表明,Mix2Vec不仅具有良好的表示本地信息的能力,而且还可以很好地表示全局信息,这是因为它同时考虑了信息保存和下游任务所需的表示分布。

表4不同无监督表示器输出表示在k­-means上聚类F­-Score比较

4数据表示效果可视化

       本节中,进一步可视化包括Mix2Vec及其变体(不同的超参数)在内的所有表示器所学到的数据表示,以显示学习到的数据表示的可分离性。为了将数据集的学到的表示可视化为二维空间,实验中引入了t分布的随机邻居嵌入可视化法方法,将高维表示向量转换为二维表示向量。

       实验中,为每个数据集随机抽取600个这些二维向量,并在图3中展示它们的位置,此处,仅展示在Churn上的可视化效果。从图中结果可知,Mix2Vec可以生成包含更多信息的高度结构化表示。从单个目标的可视化效果来看,RSP擅长捕获单个信息,PDM提供先验匹配,SIM突出结构表示,符合Mix2Vec在设置之初融合三个目标的原因。

 

图3 Mix2Vec在Churn上数据表示的结果可视化

03结论

       在现实世界中,以无监督的方式进行混合异构数据表示是非常苛刻的挑战。本工作中针对具有稀疏性、动态性和异构性等复杂特征的混合数据,引入了一种有效的无监督表示方法Mix2Vec。Mix2Vec通过预测输入的随机混洗操作,将数据表示的分布与输入分布匹配,并增强数据表示中的结构信息。

       丰富全面的实验表明,Mix2Vec可以生成复杂的混合数据的通用且可重复使用的数据表示,以满足多个方面的目标,包括解决上述混合数据的特征、支持信息表示质量以及实现不同学习任务的更好学习性能。模型分析和实验验证中表明Mix2Vec可以处理具有复杂特征的混合异构数据,并且对基于距离度量的具体学生任务有明显的提升和帮助作用。

       上述结论直接印证了Mix2Vec可以用于案例推理领域中处理复杂的混合异构案例数据。通过将混合异构案例数据用同一空间的向量表示,可以有效地解决混合异构案例在原始数据空间难以度量案例之间距离的问题,从而能够提升案例推理的性能。

论文信息

       Chengzhang Zhu, Qi Zhang, Longbing Cao, Arman Abrahamyan: Mix2Vec: Unsupervised Mixed Data Representation. DSAA 2020: 118-127

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值