Methodologies for Cross-Domain Data Fusion: An Overview

跨域数据融合的方法:概述

Abstract

  传统的数据挖掘通常处理来自单个域的数据。在大数据时代,我们面临着来自不同领域不同来源的数据集的多样性。这些数据集由多种模式组成,每种模式都有不同的表示、分布、规模和密度。在大数据研究中,如何从多个不同的(但可能有联系的)数据集中释放知识的力量至关重要,这在本质上将大数据与传统的数据挖掘任务区分开来。这就需要在机器学习和数据挖掘任务中有机地融合来自各种数据集的知识的高级技术。本文总结了数据融合方法,将其分为基于阶段的、基于特征层的和基于语义意义的三种类型。最后一类数据融合方法进一步分为四类:基于多视图学习的方法、基于相似度的方法、基于概率依赖的方法和基于转移学习的方法。这些方法侧重于知识融合,而不是模式映射和数据融合,在很大程度上区别了数据库社区中研究的跨域数据融合和传统数据融合。本文不仅介绍了每一类方法的高级原理,还举例说明了这些技术在处理实际大数据问题中的应用。此外,本文将现有的工作放在一个框架中,探讨不同的数据融合方法之间的关系和区别。本文将帮助广大社区找到大数据项目中数据融合的解决方案。
索引术语-大数据、跨域数据挖掘、数据融合、多模态数据表示、深度神经网络、多视图学习、矩阵分解、概率图形模型、转移学习、城市计算

1INTRODUCTION

  在大数据时代,从社交媒体到交通,从医疗保健到无线通信网络,各行各业都产生了大量的数据。当解决一个问题时,我们通常需要利用多个不同的数据集[84]。例如,为了改善城市规划,我们需要考虑一个城市的路网结构、交通量、兴趣点(POIs)和人口。为了解决空气污染问题,我们需要结合气象数据、车辆和工厂的排放以及一个地方的分散情况来研究空气质量数据。为了给用户生成更准确的出行建议,我们需要考虑用户在网络和现实世界中的行为。为了更好地理解图像的语义含义,我们可以使用其周围的文本和像素的特征。因此,在大数据研究中,如何从不同领域的多个数据集中发掘出知识的力量至关重要,这在本质上将大数据与传统的数据挖掘任务区分开来。
  然而,来自不同领域的数据包含多种模式,每种模式具有不同的表现形式、分布、规模和密度。例如,文本通常表示为离散的稀疏字数矢量,而图像则表示为实值密集的像素强度或特征提取器的输出。POIs由与静态类别相关的空间点表示,而空气质量则使用地理标记的时间序列表示。人的移动数据用轨迹来表示[82],而道路网络则用空间图来表示。在[8][46][56]数据挖掘任务中,同等对待不同数据集或简单地将不同数据集的特征拼接在一起,都不能获得良好的挖掘性能。因此,跨模块的数据融合成为大数据研究的新挑战,呼唤先进的数据融合技术。
  本文总结了三种能够融合多个数据集的方法。第一类数据融合方法在数据挖掘任务的不同阶段使用不同的数据集。我们称之为基于阶段的融合方法。例如,Zheng等[86]首先利用路网数据将一个城市分割成互不相连的区域,然后基于人的移动数据检测出没有很好连接的区域对。这些区域对表示城市交通网络中过时的设计。第二类方法利用深度神经网络(DNN)对不同数据集提取的原始特征进行新的表示。然后,新的特征表示将被输入到一个模型中进行分类或预测。第三类根据其含义将数据进行混合,可以进一步分为四类:

  • 基于多视图的方法:这组方法将不同的数据集(或来自不同数据集的特性)视为对象或事件的不同视图。不同的特征被输入到不同的模型中,从不同的角度描述一个对象。结果随后合并在一起或相互加强。有限公司培训就是这类的一个例子。
  • 基于相似性的方法:这组方法利用不同对象之间的潜在相关性(或相似性)来融合不同的数据集。典型的方法是耦合协同过滤(CF)。上下文感知的CF,其中不同的数据集由具有相同维度的不同矩阵进行建模。通过将这些矩阵(或张量)分解到一起,我们可以得到比单独对单个矩阵(或张量)进行因子分解更好的结果。流形排列也属于这一类。
  • 基于概率依赖的方法:此组模式使用图形表示来确定不同数据集之间的概率因果关系(或依赖关系)。贝叶斯网络和马尔可夫随机域是代表模型,将从不同数据集中提取的特征表示为图节点,将两个特征之间的依赖关系表示为边缘。
  • 基于转移学习的方法:这组方法将知识从一个源域转移到另一个目标域,处理目标域的数据稀疏性问题(包括特征结构缺失或观测缺失)。转移学习甚至可以在不同的学习任务之间转移知识,例如从推荐书籍到推荐旅游。
      本文的其余部分深入探讨了每一类方法,介绍了每一类方法的高级原理和典型实例。通过这篇论文,研究人员和专业人员更有能力选择合适的方法来解决现实世界的大数据融合问题。本文还分享了一组有助于大数据研究的公共数据任务集。

2 RELATED WORK

2.1 Relation to Traditional Data Integration

在这里插入图片描述
  传统的数据融合[10]被认为是数据集成的一部分,它是将表示同一真实世界对象的多个数据集成为一个一致的、准确的、有用的表示的过程。图1 A)为常规数据融合的范例。例如,三个不同的数据提供者为北京生成了三个POI数据集。传统的数据融合是通过模式映射和重复检测将三个数据集合并到一个具有一致数据模式的数据库中。描述同一POI的记录(来自不同的数据集),例如一家餐馆,是在同一域中生成的,即POI。
  如图1 B)所示,在大数据时代,不同领域产生多个数据集,这些数据集由一个潜在对象隐式连接。例如,一个地区的交通状况、POIs和人口统计学共同描述了该地区的潜在功能,尽管它们来自三个不同的领域。从字面上看,来自三个数据集的记录分别描述了不同的对象,即道路段、POI和邻居。因此,我们不能直接通过模式映射和重复检测来合并它们。相反,我们需要通过不同的方法从每个数据集中提取知识,将其中的知识有机地融合在一起,从而整体地理解一个区域的功能。这更多地是关于知识融合,而不是模式映射,这极大地区别于传统的数据融合(在数据库社区中进行了研究)和跨域数据融合。

2.2 Relation to Heterogeneous Information Network

  信息网络是对现实世界的一种抽象,它关注对象和对象之间的交互。事实证明,这个抽象级别不仅在表示和存储关于真实世界的基本信息方面具有强大的功能,而且还通过探索链接[57]的功能,提供了从其中挖掘知识的有用工具。与许多将互连数据视为同构图或网络的现有网络模型不同,异构信息网络由不同类型的节点和关系组成。例如,书目信息网络由作者、会议和论文作为不同类型的节点组成。网络中不同节点之间的边缘可以表示不同的语义含义,例如作者发表了一篇论文,在一个会议上发表了一篇论文,作者参加了一个会议。已有不少算法被用于挖掘异构网络,如对[58][59]进行排序和聚类。
  异构信息网络几乎可以在任何领域被构建,如社交网络、电子商务和在线电影数据库。但是,它只链接单个域中的对象,而不是跨不同域的数据。例如,在一个书目信息网络中,人员、论文和会议都来自一个书目域。在一个Flickr信息网络中,用户、图片、标签和评论都来自一个社交媒体领域。如果我们想要融合完全不同领域的数据,例如交通数据、社交媒体和空气质量,这样一个异构的网络可能无法在不同领域的对象之间找到具有语义意义的明确链接。因此,提出的异构信息网络挖掘算法不能直接应用于跨域数据融合。

3 STAGE-BASED DATA FUSION METHODS

  这类方法在数据挖掘任务的不同阶段使用不同的数据集。因此,不同的数据集是松散耦合的,对它们的模式的一致性没有任何要求。
在这里插入图片描述
如Fig. 2 A)所示,Zheng等[86]首先采用地图分割方法,通过主要道路将城市划分为区域[75]。然后将出租车的GPS轨迹映射到区域,形成区域图,如图所示。(2 B),其中节点为区域,边表示两个区域之间的通勤(本例中为出租车)的集合。区域图实际上混合了道路网络和出租车轨迹的知识。通过对区域图的分析,进行了大量的研究,识别路网设计不当[86],检测诊断交通异常[15][43],寻找城市功能区域[74][76]。
在这里插入图片描述
  例2:在朋友推荐中,如图3所示,Xiao等[67][68]首先从个体的位置历史(以散点轨迹的形式记录)中检测停留点。由于不同用户的位置历史在物理世界中可能没有任何重叠,因此每个停留点都根据其周围的POIs转换为一个特征向量。例如,在一个停留点周围有五家餐馆,一个购物中心和一个加油站。换句话说,这些特征向量之间的距离反映了人们去过的地方之间的相似性。
  然后根据POIs的特征向量将这些停留点分层聚类,形成树状结构,其中节点为停留点簇;父节点由其子节点的停留点组成。通过选择用户至少有一个停留点的节点(从树中),我们可以用部分树表示用户的位置历史。如果用户在两个节点上有两个连续的停留点,则通过将两个节点(在同一层上)与一条边连接,将用户的部分树进一步转换为一个层次图。因此,层次图包含用户轨迹的信息和用户访问过的地点的POIs。由于不同用户的层次图是基于相同的树结构构建的,所以他们的位置历史具有可比性。最后,通过层次图之间的相似度来度量两个用户之间的相似度。
  例3:在第三个例子中,Pan等人[49]首先基于车辆的GPS轨迹和路网数据检测交通异常。异常由道路网络的子图表示,其中驾驶员的路由行为与原始模式显著不同。利用检测到的异常的时间跨度和位于异常地理范围内的地点的名称作为条件,他们检索人们在异常发生时在该地点发布的相关社交媒体(如tweet)。从检索到的社交媒体中,他们试图用挖掘代表词汇来描述被发现的异常,例如“游行”和“灾难”,这些词汇在正常的日子里几乎不会出现,但当异常发生时却变得频繁起来。第一步缩小了要检查的社交媒体的范围,第二步丰富了第一步检测到的结果的语义意义。
  基于阶段的数据融合方法可以与其他数据融合方法结合使用。例如Yuan等[76]首先利用路网数据和出租车行驶轨迹构建区域图,然后提出一种融合POIs信息和区域图知识的图形化模型。在第二阶段,在基于阶段的方法框架中采用了基于概率图模型的方法。

4. FEATURE-LEVEL-BASED DATA FUSION

4.1 Direct Concatenation

  在这一类中,直接的方法[66][70]对从不同数据集中提取的特征数据进行同等处理,并将它们按顺序连接到一个特征向量中。然后将特征向量用于聚类和分类任务。由于不同的dna -taset在表达、分布和规模上可能存在很大的差异,不少研究对这种融合[5][46][56]提出了限制。首先,在小样本训练的情况下,这种拼接会导致过拟合,忽略每个视图的特定统计特性[69]。其次,很难发现存在于不同[56]模式下的低水平特征之间的高度非线性关系。第三,从不同数据集中提取的特征之间存在冗余和依赖关系,这些特征可能是相关的。
  在该子分类中,提出了在目标函数中加入稀疏正则化来处理特征冗余问题。因此,一个机器学习模型可能会给冗余特征分配一个接近于零的权重。
  例4:Fu等人的[20]将从不同数据集(如出租车轨迹、POIs、道路网络和在线社交媒体)中提取的m个特征输入到一个学习排名模型中,以预测一个住宅地产的排名(就其潜在投资价值而言)。等式1被添加到学习排序目标函数中,以在学习过程中执行稀疏表示。
在这里插入图片描述
  𝝎=(𝜔1𝜔2,…,𝜔𝑚)是一个参数向量的特征,𝑚特性的数量参与学习模型,𝜷2 =(𝛽12𝛽22,…,𝛽𝑚2)的方差向量对应的参数。更具体地说,一个参数的值𝜔𝑚假定与零均值和方差高斯distribu-tion后𝛽𝑚2。设置一个零均值的分布的概率减少分配𝜔𝑚很大的价值。先验分布,例如一个逆伽马,进一步将规范的价值𝛽𝑚2。加强稀疏,常量𝑎和𝑏通常是接近于零。因此,𝛽𝑚2往往是小的。换句话说,特性重量𝜔𝑚有很高的概率不同的高斯期望,即零。通过这样的双重正规化(即,我们可以同时通过贝叶斯稀疏先验将大部分特征权值调整为零或接近零,同时允许模型学习重要特征的大权值。此外,贝叶斯稀疏先验是一个光滑函数,因此其梯度易于计算。由于许多目标函数都是通过梯度下降法求解的,因此稀疏正则化可以应用于许多数据挖掘任务中。然而,贝叶斯稀疏先验的稀疏正则性不如L1正则性强。

4.2 DNN-Based Data Fusion

在这里插入图片描述
  近年来,越来越多的学者提出了基于DNN的统一特征表示方法。实际上,DNN在人工智能领域并不是一个全新的概念。如图4 A)所示,它基本上是一个包含大量参数的多层神经网络。以前,神经网络训练是基于反向传播算法的,当神经网络有很多隐藏层时,这种算法不能很好地工作。最近,人们提出了一种新的学习算法(又称深度学习),如自动编码器和限制玻尔兹曼机(RBM),用于一层一层地学习DNN的参数。使用监督的、非监督的和半监督的方法,深度学习学习多个层次的表示和抽象,帮助理解数据,如图像、声音和文本。除了作为一个预测器,DNN还被用来学习新的特征表示[8],它可以被输入到其他分类器或预测器中。在图像识别[37]和语音翻译[12]中,新的特征代表已经被证明比手工制作的特征更有用。在[40]中可以找到关于DNN的教程,在[8]中可以找到关于使用DNN的特征表示的调查。DNN的大部分应用于处理单一模态的数据。最近,一系列[46][52][56][55]的研究开始使用DNN从不同模式的数据中学习特征呈现。结果表明,这种表示方法对分类和信息检索任务是有用的。
  例5:Ngiam等人提出了一种深入的自动编码器架构,以捕获两种模式(如音频和视频)之间的“中级”特性表达。如表1所示,我们研究了三种学习设置(包括跨模态学习、共享表示学习和多模态融合)。图4 B)展示了用于交叉模态学习的深度自编码器的结构,其中使用单个模态(如视频或音频)作为输入,分别为视频和音频重建更好的特征表示。基于共享表示学习和多模态融合,在训练和测试中采用多种不同的模式,本文采用图4C)所示的体系结构。对这些提出的深度学习模型的广泛评价表明,深度学习能够有效地学习1)在其他模态的帮助下,更好的单一模态表征;2)多个模式之间的相关性的共享表示。
  使用玻尔兹曼机进行深度学习是多模态数据融合的另一项工作。论文[56]首先定义了一个好的多模态学习模型的三个标准:1)学习的共享特征表示保持了“概念”的相似性;2)联合特征表示在缺少模态的情况下容易获得,从而填补了模态的缺失;3)新的特征表示使得在查询另一种模态时可以方便地检索其中一种模态。
  例6:如图4d所示,多模态DBM利用高斯-伯努利RBM (Restricted Boltzmann Machine)对稠密实值图像特征向量进行建模,利用复制的softmax对稀疏词计数向量进行建模。多模态DBM为每个模态构造一个单独的两层DBM,然后通过在其上添加一层来合并它们。此外,多模态DBM是一种具有相邻层间二部连接的生成无向的图论模型。此图形模型支持双向(自底向上和自顶向下)搜索(由两个红色箭头表示)。配备一个设计良好的体系结构中,多通道DBM的关键思想是学习联合密度分布在文本和图像,例如𝑃(𝐯𝑖𝑚𝑔,𝐯𝑡𝑒𝑥𝑡;𝜃)𝜃包括参数,从大量的user-tagged 图片。本文对分类和检索任务进行了广泛的实验。测试了多模态和单模态输入,验证了该模型融合多模态数据的有效性。
  在实践中,基于DNN的融合模型的性能通常取决于我们对DNN参数的调优程度。找到一组合适的参数可以获得比其他参数更好的性能。然而,给定大量的参数和非凸优化设置,寻找最优参数仍然是一个劳动密集型和耗时的过程,严重依赖于人类的经验。此外,很难解释中间层的特性表示代表什么。我们也不真正理解DNN是如何使原始特性更好地表示的。

5. SEMANTIC MEANING-BASED DATA FUSION

  基于特征的数据融合方法(在第4节中介绍)并不关心每个特征的含义,只将一个特征视为实值数或分类值。与基于特征的融合不同,基于语义意义的方法理解每个数据集的洞察力以及不同数据集之间的特征关系。我们知道每个数据集代表什么,为什么不同的数据集可以被融合,以及它们之间是如何加强的。数据融合的过程带有一种语义意义(和洞察力),它来自于人们在多个数据集的帮助下思考问题的方式。因此,它们是可解释和有意义的。本节介绍四组基于语义意义的数据融合方法:基于多视图的、基于相似性的、基于概率依赖的、基于转移学习的方法。

5.1 Multi-View Based Data Fusion

  一个对象的不同数据集或不同的特征子集可以看作是对象的不同视图。例如,一个人可以通过从多个来源获得的信息来识别,比如面部、指纹或签名。一幅图像可以用不同的特征来表示,如颜色或纹理特征。当这些数据集描述同一个对象时,它们之间有一个潜在的共识。另一方面,这些数据集是相互补充的,包含了其他视图没有的知识。因此,组合多个视图可以全面而准确地描述一个对象。
  根据[69],多视图学习算法可以分为三组:1)协同训练,2)多核学习,3)子空间学习。值得注意的是,协同训练风格的算法[11]交替训练,以最大化数据的两个不同视图的相互一致性。多种内核学习算法[23]利用自然地对应于不同视图的内核,并将内核线性或非线性地组合在一起以改进学习。子空间学习算法[16]的目标是获得一个由多个视图共享的潜在子空间,假设输入的视图是由这个潜在子空间生成的。

5.1.1. Co-Training

  联合训练[11]是最早的多视图学习方案之一。联合培训考虑的是这样一种环境,在这种环境中,每个示例都可以划分为两个不同的视图,并做出三个主要假设:1)充分性:每个视图本身都足以进行分类;2)兼容性:两个视图中的目标函数对同时出现的具有高概率的特征预测相同的标签;3)条件独立性:给定类标签,视图是有条件依赖的。在实践中,条件独立的假设往往过于强烈,难以得到满足。因此,几个较弱的替代[1][5]已经被考虑。
  在原始co-training算法[11],给定一组𝐿标签的例子和一组𝑈无标号的例子,该算法首先创建了一个小池𝑈′包含𝑢unla-beled例子。然后迭代以下过程。首先,使用𝐿训练两个分类器𝑓1和𝑓2视图分别𝑣1和𝑣2。第二,允许每个人这两个clas-sifiers检查标记集𝑈′和添加𝑝狂轰滥炸最自信的标签看作是积极的,和𝑛例子最自信的标签-𝐿,随着标签由相应的分类器。最后,池𝑈′是由图2补充𝑝+ 2从随机𝑈𝑛例子。背后的直觉co-training算法是分类器𝑓1将实例添加到标记集分类器𝑓2将能够用于学习。如果违反了独立性假设,平均而言,附加的示例提供的信息将较少。因此,联合培训可能不会那么成功。从那时起,许多变种被开发出来。
  Nigam等人[47]没有给未标记的示例分配标签,而是在每个视图中运行EM(期望和最大化),给出可能从一次迭代更改到另一次迭代的未标记示例的概率la- b0。这种算法称为Co-EM,在许多问题上都优于co-training,但是需要每个视图的分类器来生成类概率。Brefeld等人以概率的方式重新构造了支持向量机(SVM),并开发了支持向量机的co-EM版本来缩小这一差距。Zhou等[92]将协同训练类型的算法从分类扩展到回归问题。他们提出了一种称为CoREG的算法,该算法使用两个k近邻(kNN)回归。在学习过程中,每一个回归变量都为另一个回归变量标记未标记的数据。为了选择合适的未标记样本进行标记,CoREG通过考虑未标记样本的标记对已标记样本的影响来估计标记置信度。最后的预测是通过对两个回归量产生的回归估计进行平均得到的。
在这里插入图片描述
  例7:Zheng等[76][85]提出了一种基于协同训练的模型,基于空气质量、气象数据、交通、POIs和道路网络五个数据集,推断出整个城市的细粒度空气质量。图5 A)从多视图学习的角度阐述了该模型的原理。自然,空气质量在单个位置(用黑色的破箭头表示)和不同位置之间的空间相关性(用红色的实箭头表示)具有时间依赖性。例如,一个地方当前的空气质量取决于过去的几个小时。另外,如果一个地方周围的空气质量不好,那么这个地方的空气质量也会很差。因此,时间相关性和空间相关性形成了两个不同的观点(时间观点和空间观点)的空气质量的位置。
  如图5 B)所示,提出了一个基于协同训练的框架,该框架由两个分类器组成。一种是基于人工神经网络(ANN)的空间分类器,它以空间相关的特征(如POIs的密度和高速公路的长度)为输入,对不同位置的空气质量之间的空间相关性进行建模。另一种是基于线性链条件随机场(CRF)的时间分类器,包括与时间相关的特征(如交通和气象),以模拟一个地点的空气质量的时间依赖性。这两个分类器首先使用非重叠的特征基于有限的标记数据进行训练,然后分别推断未标记的实例。每轮中由分类器自信地推断出的实例将被带到训练集,在下一轮中将用于对两个分类器进行再训练。迭代可以停止,直到未标记的数据被消耗完或者推理精度不再增加。在推断一个实例的标签时,我们向不同的分类器发送不同的特征,在不同的标签上生成两组概率。结果选择两个分类器产生的相应概率最大的标签。
  基于4个城市的数据对该方法进行了评价,结果表明,该方法优于基于插值的方法、经典的离散模型、决策树、CRF等著名的分类模型和神经网络。在后面的两个基线分类中,所有的特性都被输入到一个单独的模型中,而没有区分它们的语义和视图。

5.1.2. Multi-Kernel Learning

  多内核学习(MKL)是指一组机器学习方法,它使用一组预定义的内核,并作为算法的一部分学习最优的线性或非线性内核组合。核是对数据的一种假设,它可以是相似概念,也可以是分类器,也可以是回归器。根据[23],MKL有两种用途(如图6所示):
在这里插入图片描述
  a)不同的内核对应不同的相似性概念。学习方法选择最好的内核,或者使用这些内核的组合。从entrie集合中检索数据样本,以根据所有特性训练内核。虽然使用特定的内核可能会产生偏差,但允许学习者在一组内核中进行选择可以产生更好的解决方案。例如,有几个核函数,如线性、多项式和高斯核,成功地用于支持向量机。这种MKL最初并不是为多视图学习设计的,因为整个特性集都用于训练每个内核。:b) MKL第一次使用的一个变化是训练不同的内核,输入来自不同的表示,可能来自不同的来源或方式。由于这些是不同的表示,它们有不同的大小度量,对应于不同的内核。在这种情况下,组合内核是组合多个信息源的一种可能方式。推理类似于组合不同的分类器。Noble[48]将这种方法称为混合内核中间组合,与早期组合(将来自不同来源的特征连接起来并提供给单个学习者)和后期组合(将不同的特征提供给不同的分类器,然后由固定的或经过训练的组合器进行组合)形成对比。
  有三种方法可以组合内核的结果:线性、非线性和数据相关的组合。线性组合由未加权(即均值)和加权和组成。非线性组合方法[63]使用核的非线性函数,即乘法、幂和指数。依赖于数据的组合方法为每个数据指定特定的内核权重。通过这样做,他们可以识别数据中的局部分布,并为每个区域[23]学习适当的内核组合规则。
  现有的MKL算法主要有两组训练方法:1)一步法计算组合函数和基学习器的单遍参数,采用顺序法或模拟新法。在序列方法中,首先确定组合函数参数,然后使用组合核训练基于核的学习器。在同步方法中,这两组参数是一起学习的。2)两步法使用迭代法。在每个迭代中,我们首先更新组合函数的参数,同时修正基本学习器的参数。在修正组合函数参数的同时,对基类学习者的参数进行更新。这两个步骤重复直到收敛。
  示例8:集合和增强方法[1],如随机森林[13],是受MKL的启发。随机森林将Bootstrap聚合(也称为Bagging)的思想与随机选择[27][28]的特性相结合,从而构建一个具有控制方差的决策树集合。更具体地说,它是根据[27][28]所引入的原理,通过每次选择一部分训练数据和一部分特征来训练多个决策树。当一个测试用例出现时,用例特性的不同选择将同时发送到相应的决策树(即内核)。每个内核生成一个预测,然后线性地生成。
在这里插入图片描述
  例9:Zheng等人[89]基于5个数据集预测了未来48小时内某地的空气质量。图7给出了预测模型的结构,该模型包含两个内核(空间预测器和时间预决策器)和一个内核学习模块(即预测集)。时间预报器根据气象站的数据,如当地的气象、过去几个小时的空气质量指数和当地的天气预报,来预测一个气象站的空气质量。取而代之的是,空间预测器考虑空间邻近数据,如其他监测站的空气质量指数和风速,来预测监测站未来的空气质量。这两个预报器分别独立地对某一站进行预报,并由预报聚合器根据该站当前的天气状况动态地进行组合。有时,局部预测更重要,而空间预测在其他局部(如大风时)应给予更高的重视。预测算法基于回归树,从数据中学习两核之间的动态组合。
  基于mklt的框架在空气质量预测实例中表现优于单一的基于核的模型,原因有以下三个:1)从特征空间s的角度:时空预测因子所使用的特征不存在任何重叠,从而提供了对某一站点空气质量的不同看法。2)从模型s的角度来看:时空预测因子分别对局部因素和全局因素进行建模,二者具有显著不同的属性。例如,局部更像是一个回归问题,而全局更像是一个非线性插值问题。因此,应该使用不同的技术来处理它们。3)从参数学习的角度来看:将所有的特征输入到一个模型中,得到一个需要学习很多参数的大模型。然而,训练数据是有限的。例如,我们只有一个城市一年半的AQI数据。将一个大模型分解成三个有机耦合的小模型,极大地缩小了参数空间,从而提高了学习的准确性和预测的准确性。

5.1.3. Subspace Learning

在这里插入图片描述
  基于子空间学习的方法假设输入视图是由该子空间生成的,从而获得多个视图共享的子空间,如图8所示。利用子空间,我们可以执行子任务,例如分类和聚类。另外,由于构建的子空间的双输入性通常比任何输入视图的双输入性都低,因此“双输入性的诅咒”问题在一定程度上是可以解决的。
  在单视图学习的文献中,主成分分析(PCA)是一种广泛应用于单视图数据子空间分析的方法。经典相关分析(CCA)[25]可视为PCA的多视图版本。通过最大化子空间中两个视图之间的相互关系,CCA输出每个视图上的一个光学投影。由CCA构造的子空间是线性的,因此不能直接应用于非线性嵌入的数据集。为了解决这个问题,提出了CCA的内核变体,即KCCA[38],将每个(非线性)数据点映射到线性CCA操作的更高空间。CCA和KCCA都以非监督的方式利用子空间。摘要在主成分分析方法的基础上,提出了一种基于多视图费雪判别分析的新方法[33]。Lawrence[39]将高斯过程作为一种工具来构建一个潜在的变量模型,以完成非线性二维简化的任务。Chen等人开发了一个统计框架,该框架基于一个通用的多视图潜在空间马尔科夫网络,学习由多个视图共享的预测子空间。

5.2 Similarity-Based Data Fusion

  不同物体之间有相似之处。如果我们知道两个对象(X, Y)在某些度量上是相似的,那么当Y缺少数据时,Y可以利用X的信息。当X和Y分别有多个数据集时,我们可以学习两个对象之间的多个相似点,每个相似点都是根据一对对应的数据集计算出来的。这些相似性可以相互加强,共同巩固两个对象之间的相关性。后者依次增强了每个个体的相似性。例如,从密集数据集中获得的相似度可以加强从其他稀疏数据集获得的相似度,从而有助于填补后者缺失的值。从另一个角度来看,我们可以说,通过组合两个对象的多个数据集,我们更有可能准确地估计它们之间的相似性。因此,不同的数据集可以根据相似性混合在一起。耦合矩阵分解和流形对准是这一范畴的两种典型方法。

5.2.1. Coupled Matrix Factorization

  在详细阐述耦合矩阵分解之前,我们需要引入两个概念。一种是协同过滤(CF);另一种是矩阵分解。后者是实现CF模型的一种有效方法。

5.2.1.1 Collaborative Filtering

  CF是一种著名的模型,广泛应用于推荐系统中。协同过滤的基本思想是相似的用户以相似的方式对相似的条目[21]进行评分。因此,如果确定了用户和项目之间的相似性,就可以预测用户对未来项目的评价。用户和项目通常由一个矩阵组织,其中一个条目表示用户对一个项目的评分。评级可以是显式的排名,也可以是隐式的指示,例如访问某个地方的次数或用户浏览某个项目的次数。一旦形成一个矩阵,矩阵中两行之间的距离表示两个用户之间的相似度,而两列之间的距离表示两个项目之间的相似度。
  基于内存的CF是最广泛使用的算法,它计算一个用户的未知评级值和一个项目的值,作为其他一些用户(通常是N个最相似的用户)对同一项目的评级的总和。有两类基于内存的CF模型:基于用户的[45]和基于项目的[42]技术。例如,用户𝑝的爱好(𝑟𝑝𝑖)位置𝑖可以根据预测方程1,这是一个实现基于用户的协同过滤[45][91]:
在这里插入图片描述
在𝑠𝑖𝑚(𝑢𝑝,𝑢𝑞)表示用户之间的相似性𝑢𝑝和𝑢𝑞;𝑅𝑞̅̅̅̅和𝑅𝑝̅̅̅̅意味着的平均评级𝑢𝑝和𝑢𝑞分别表示他们的评定量表;𝑆(𝑅𝑝)代表物品的集合被𝑢𝑝;𝑈′的用户集合是最类似于𝑢𝑞。𝑟𝑞𝑖−𝑅𝑞̅̅̅̅是避免不同用户的等级偏见。当用户数量增加时,计算每一对用户之间的相似度对于实际系统来说是不现实的。考虑到项目的数量可能比用户的少,我们提出了基于项目的CF,如Slop One算法[42]来解决这个问题。当用户数量和项目数量都很大时,采用基于矩阵因子分解的方法实现CF模型。

5.2.1.2 Matrix Factorization

  矩阵分解一个𝑋(稀疏)矩阵分解为两个矩阵(煤)的生产,分别表示用户和项目的潜在变量。两个矩阵可以近似矩阵𝑋的生产,因此在𝑋帮助填补缺失值。广泛使用的矩阵分解方法有两种:奇异值分解(SVD)[22][35]和非负矩阵分解(NMF)[30][41]。
在这里插入图片描述
  1)奇异值分解因式分解一个𝑚×𝑛矩阵𝑋生产的三个矩阵𝑋=𝑈∑𝑉𝑇,𝑈是𝑚×𝑚真正酉矩阵(又名左奇异向量),∑是𝑚×𝑛矩形对角矩阵非负实际num-bers对角线(又名奇异值);𝑉𝑇是𝑛×𝑛真正的酉矩阵(又名左奇异向量)。在实践中,如图9所示,在近似矩阵𝑋𝑈∑𝑉𝑇,我们只需要保持顶级𝑘∑和对应的奇异向量最大的奇异val-ues𝑈𝑉。SVD具有一些良好的性质。首先,𝑈和𝑉用水矩阵;例如𝑈∙𝑈𝑇=𝐼𝑉∙𝑉𝑇=𝐼。第二,可以由∑𝑘的价值。例如,选择第一个𝑘对角条目(∑)的总和大于整个对角元素和的90%然而,与NFM相比,SVD的计算开销更大,而且更难以并行化。
  2)NFM因式分解一个𝑚×𝑛矩阵𝑅(𝑚用户和𝑛物品)变成𝑚×𝐾的矩阵P,𝐾×𝑛矩阵𝑄𝑅=𝑃×𝑄,所有三个矩阵的属性没有负面元素。这种非负性使得生成的矩阵更容易检查[30]。另外,在许多应用中,非负性是被考虑的数据固有的,例如位置推荐[2][88],流量估计[53],以及音频频谱的处理。每一行的基质𝑃表示用户的潜在fea-ture;矩阵的每一列𝑄代表一个项目的潜在功能。𝐾可以显著小于𝑚𝑛,表示数量的潜在特性为用户和一个项目。预测一个条目的评级𝑑𝑗由𝑢𝑖,我们可以计算两个向量的点积对应𝑢𝑖和𝑑𝑗方程5。
在这里插入图片描述
  为了找到一个合适的𝑃、𝑄,我们可以先初始化两个矩阵和一些价值观和计算产品和𝑅之间的区别,如方程6所示。我们可以尽量减少𝑒𝑖𝑗2使用梯度下降迭代,发现一个局部最小值的差异。
在这里插入图片描述
  具体地说,要知道在哪个方向,我们必须修改值,我们微分方程6对𝑝𝑖𝑘和𝑞𝑘𝑗分开
在这里插入图片描述
  取得渐变,我们现在可以制定更新规则𝑝𝑖𝑘和𝑞𝑘𝑗如下:
在这里插入图片描述
  𝛼在哪一个小值,确定处理的速率最低。当优化𝑝𝑖𝑘,NFM修复𝑞𝑘𝑗,反之亦然;执行梯度下降itera-tively直到总误差∑𝑒𝑖𝑗2收敛于最小。为了避免过拟合,对误差函数进行了正则化处理。
在这里插入图片描述
与SVD相比,NFM具有灵活性和并行性,但精度较低。

5.2.1.3. Coupled Matrix Factorization

  根据应用程序的不同,项目也可以是位置[2][88][91]、网站或公司,而用户可以是司机、乘客或服务的订阅者。我们甚至可以将用户泛化为对象,将项目泛化为对象的对象。当一个对象有多个数据集时,我们不能简单地将来自不同来源的不同支持物存放到一个单独的矩阵中。由于不同的数据集具有不同的分布和意义,将它们分解到一个单独的矩阵中会导致矩阵中缺失值的不协调互补。先进的方法[80][53]使用耦合矩阵分解(或称为上下文感知矩阵分解)[54]来适应不同矩阵的不同数据集,这些数据集之间共享一个共同的维度。通过协作分解这些矩阵,我们可以将从一个数据集学到的不同对象之间的相似性转移到另一个数据集,从而更准确地补充缺失的值。
  例10:Zheng等[80]提出了一种耦合矩阵分解方法来实现位置-活动推荐。如图10所示,location-activity网友𝑋历史是建立基于许多用户的位置。一排𝑋代表一个地点和一列表示一个活动(如购物和就餐)。一个条目在矩阵𝑋表示执行一个特定活动的频率是在一个特定的位置。如果这个位置-活动矩阵已经完全填满,我们可以通过从对应于该活动的列中检索频率相对较高的前k个位置,为特定活动推荐一组位置。同样,在为某个位置执行活动推荐时,可以从与位置对应的行中检索最前面的k个活动。然而,位置-活动矩阵是不完整和非常稀疏的,因为我们只有一部分用户的数据(和个人可以访问很少的位置)。因此,传统的CF模型不能很好地生成质量建议。完全分解𝑋于事无补多作为数据在稀疏。
在这里插入图片描述
  为了解决这个问题,从另一个两个矩阵的信息(𝑌和𝑍),分别显示在图10左右的一部分,纳入矩阵factoriza-tion。一个是位置特征矩阵;另一个是活动-活动矩阵。这种附加的矩阵通常被称为上下文,可以从其他数据集中学习。在这个例子中,矩阵𝑌,一行代表POIs的位置和一个列表示一个类别(如餐馆和酒店)的位置,建立基于POI数据库。两行之间的距离矩阵𝑌表示两个地点之间的相似性的地理属性。我们发现两个具有相似地理属性的位置可能具有相似的用户行为。矩阵𝑍模型两种不同的活动之间的关系,可以从搜索结果通过发送两个活动一个搜索引擎的标题。是传播信息的主要思想在𝑋,𝑌和𝑍要求他们分享低秩矩阵𝑈和𝑉集体矩阵分解模型。矩阵𝑌和𝑍构建基于密度数据,我们可以得到一个准确的分解,即矩阵𝑈和𝑉。因此,可以更准确地补充矩阵𝑋𝑋=𝑈𝑉𝑇。更具体地说,将目标函数表示为方程12:
在这里插入图片描述
在这里插入图片描述
  在∥∙∥𝐹表示弗罗贝尼乌斯常态。我是一个指标矩阵的条目𝐼𝑖𝑗= 0如果𝑋𝑖𝑗丢失,𝐼𝑖𝑗= 1不然。操作符“∘”表示entry-wise产品。目标函数的前三项控制了矩阵分解的损失,后一项控制了分解后矩阵的正则化,以防止过拟合。一般来说,这个目标函数不是共同𝑈凸的所有变量,𝑉𝑊。因此,采用梯度下降等数值方法求解局部最优解。
在这里插入图片描述
  例11:Shang and Zheng et al.[53]提出了一种耦合矩阵分解方法,基于车辆样本(如出租车)的GPS轨迹,即时估计整个城市中每个路段的行驶速度。如图11所示),在图match-ing GPS轨迹到公路网络,他们formu-late矩阵𝑀′𝑟行表示一个时间段(例如,2 pm-2:10pm)和一个列站路。每个条目在𝑀′𝑟包含旅行速度在一个特定的道路段和在一个特定的时间段,根据最近收到GPS轨迹的计算。这样做的目的是填补缺失值行𝑡𝑗,这对应于当前时间槽。虽然我们可以通过完全实现目标应用矩阵分解𝑀′𝑟,推理的accurarcy并不像大多数道路非常高段不受轨迹。
  为了解决这个问题,四个上下文矩阵(𝑀𝑟,𝑀𝐺,𝑀′𝐺和𝑍)。具体来说,𝑀𝑟代表历史道路段交通模式。的行和col-umns𝑀𝑟有相同的意思同𝑀′𝑟,一个条目的𝑀𝑟表示平均旅行速度来自长期历史数据。两者的区别从𝑀相应条目′𝑟和𝑀𝑟表明当前交通状况的偏差(公路段上)从其平均模式。Fig.11 B)中描述,𝑍包含道路段的物理特性,如道路的形状、数量的车道,速度限制,和周围POIs的分布。一般的假设是,两个地理特性相似的路段可能在一天的同一时间拥有相似的交通状况。为了捕捉高层交通状况,如图11所示,城市被划分成统一的网格。最近收到了GPS轨迹预测到这些网格矩阵𝑀′𝐺建成,列代表一个网格和一行表示一个时间槽;一个条目的𝑀′𝐺意味着汽车旅行的数量在一个特定的网格和在一个特定的时间段。同样,通过长期预测histor-ical轨迹到网格,类似𝑀𝐺建成,每个条目是车辆行驶的平均数量在一个特定的网格和在一个特定的时间段。所以,𝑀′𝐺表示实时高层在城市交通状况和𝑀𝐺表明历史高级交通模式。这两个矩阵的不同之处表明了当前高水平交通状况与历史平均值的偏差。通过结合这些矩阵,即𝑋=𝑀′𝑟| |𝑀𝑟𝑌=𝑀′𝐺| |𝑀𝐺,耦合矩阵分解应用于𝑋,𝑌,𝑍,目标函数方程13。
在这里插入图片描述
  其中,∥∙∥表示弗洛贝尼乌斯规范。目标函数的前三项控制了矩阵分解的损失,后一项是防止过拟合的正则化

5.2.3 Manifold Alignment

  流形对齐利用每个数据集内实例之间的关系来加强数据集之间关系的知识,从而最终将最初完全不同的数据集映射到一个联合潜在空间[64]。流形对齐与其他降维流形学习技术密切相关,如Isomap[60]、局部线性嵌入[51]、拉普拉斯特征映射[7]等。对于给定的数据集,这些算法试图识别该数据集的低维流形结构,并在数据集的低维嵌入中保持这种结构。流形对齐遵循相同的范式,但嵌入多个数据集。在多方面的对齐有两个关键的想法:
  1)流形对齐保存了数据集之间的对应关系;它还通过将每个数据集中的相似实例映射到欧几里得空间中的相似位置来保存每个数据集中的单个结构。作为illus-trated在图12中,廖对齐两个数据集(𝑋𝑌)映射到一个新的联合潜在空间(𝑓(𝑋)𝑔(𝑌)),在每个数据集内局部相似实例和相应的实例数据接近或相同的空间。这两个相似点由一个有损耗的函数建模,该函数由两部分组成:一部分用于保存数据集中的局部相似度,另一部分用于不同数据集之间的对应。
  正式,𝑐数据集𝑋1𝑋2,…,𝑋𝑐,当地的相似性在每个数据集是由方程建模14:
在这里插入图片描述
  在𝑋𝑎th数据集,这是一个𝑛𝑎×𝑝𝑎数据矩阵𝑛𝑎观察和𝑝𝑎特性。的嵌入是𝐹𝑎𝑋𝑎;𝑊𝑎是𝑛𝑎×𝑛𝑎矩阵,在𝑊𝑎(𝑖𝑗)之间的相似性是实例𝑋𝑎(𝑖。)和𝑋𝑎(𝑗)。总和用于该数据集中的所有实例对。𝐶𝜆(𝐹𝑎)的成本是保留当地的相似性在𝑋𝑎。如果两个数据实例,𝑋𝑎(𝑖)。和𝑋𝑎(𝑗。)从𝑋𝑎相似,而当𝑊𝑎(𝑖𝑗)较大,潜在的空间位置,𝐹𝑎(𝑖。)和𝐹𝑎(𝑖)。应该更紧密,例如| |𝐹𝑎(𝑖。)−𝐹𝑎(𝑗)| | 2很小。𝐷𝑎是𝑛𝑎×𝑛𝑎对角矩阵与𝐷𝑎(𝑖𝑖)=∑𝑊𝑎𝑗(𝑖,𝑗)。𝐿𝑎=𝐷𝑎−𝑊𝑎是拉普拉斯算子与𝑋𝑎。
  保留两个数据集之间的对应实例信息,𝑋𝑎和𝑋𝑏,每一对对应的成本是𝐶𝑘(𝐹𝑎,𝐹𝑏):
在这里插入图片描述
  在𝑊𝑎𝑏(𝑖𝑗)相似,或对应的力量,两个实例,𝑋𝑎(𝑖。)和𝑋𝑏(𝑗)。如果两个数据点在一个强大的通讯,而当𝑊𝑎,𝑏(𝑖𝑗)较大,其位置的潜在空间,𝐹𝑎(𝑖。)和𝐹𝑏(𝑗。)应该更近一些。通常,𝑊𝑎𝑏(𝑖𝑗)= 1如果𝑋𝑎(𝑖。)和𝑋𝑏(𝑗)。在通信。因此,完全有损函数是:
在这里插入图片描述
  2)在算法层面上,流形对齐假设要对齐的不同数据集具有相同的底层流形结构。第二个损失函数是使用关节邻接矩阵的拉普拉斯特征映射的损失函数:
在这里插入图片描述
  从所有数据集的所有对实例中取和;𝐅的统一表示所有数据集和𝐖(∑𝑛𝑎𝑎×∑𝑛𝑎𝑎)联合邻接矩阵的数据集。
在这里插入图片描述
  方程19日表示,如果两个数据实例,𝑋𝑎(𝑖。)和𝑋𝑎(𝑗。)是相似的,无论他们是在相同的数据集(𝑎=𝑏)或从不同的数据集(𝑎≠𝑏),而当𝐖(𝑖𝑗)是更大的在这两种情况下,潜在的空间位置,𝐅(𝑖。)和𝐅(𝑖),应该更近一些。利用这一事实| |米(𝑖。)| | 2 =∑𝑀(𝑖𝑘)2𝑘拉普拉斯算子是一个二次差分算子,
在这里插入图片描述
在𝑡𝑟(∙)表示矩阵跟踪;𝐋=𝐃−𝐖联合拉普拉斯算子矩阵的数据集。𝐃是一个(∑𝑛𝑎𝑎×∑𝑛𝑎𝑎)对角矩阵与𝐃𝑎(𝑖𝑖)=∑𝐖𝑗(𝑖,𝑗)。标准的流形学习算法可以调用𝐋ob-tain联合的潜在表示原始数据集。因此,流形对齐可以被视为一种约束联合降维的形式,即发现多个数据集的低维嵌入,预先服务于它们之间的任何已知通信[64]。
  例12:Zheng等人[87]利用311投诉数据以及社交媒体、道路网络数据和POIs来推断细粒度的噪声情况。如图13所示,他们用一个三维张量对纽约市的噪声情况进行了建模,其中三维张量分别代表区域、噪声类别和时间段。条目𝒜(𝑖𝑗𝑘)商店的总数311投诉类别𝑐𝑗地区𝑟𝑖和时间槽𝑡𝑘在给定的一段时间。这是一个非常稀疏的张量,因为可能没有人随时随地报告噪音情况。如果这个张量能完全被填满,我们就能知道整个城市的噪音情况。
在这里插入图片描述
  解决数据稀疏问题,提取三个类别的特征、地理特征,以流动特性和噪声类别相关功能(用矩阵𝑋𝑌,𝑍),从POI /道路网络数据,用户签到,和311年的数据,分别。例如,一行矩阵𝑋代表一个地区,每一列代表一个道路网络功能,如十字路口的数量和在该地区道路段的总长度。之间的相似性矩阵𝑋包含两个地区的地理特征。从直观上看,具有相似地理特征的区域可能存在相似的噪声情况。𝑍∈ℝ𝑀×𝑀之间的相关矩阵是不同类别的噪音。𝑍(𝑖𝑗)表示一类噪声频率𝑐𝑖共存与另一个类别𝑐𝑗。
  这些特征在上下文感知张量分解方法中被用作上下文,以补充张量的缺失项。更具体地说,𝒜分解为几个(煤)矩阵的乘法和核心张量(或几个向量),基于𝒜零的条目。矩阵𝑋可以映像成两个矩阵的乘法,𝑋=𝑅×𝑈,哪里𝑅∈ℝ𝑁×𝑑𝑅和𝑈∈ℝ𝑑𝑅×𝑃低等级区域的潜在因素和地理特性,分别。同样,矩阵𝑌可以映像成两个矩阵的乘法,𝑌=𝑇×𝑅𝑇,哪里𝑇∈ℝ𝐿×𝑑𝑇是一个低等级潜在因素矩阵时间槽。𝑑𝑇和𝑑𝑅通常是非常小的。目标函数定义为式(20):
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
张量𝒜与𝑌常见的时间维度和共享维度与𝑍类别。因此,它们共享区域、时间和类别的潜在空间。在耦合矩阵分解中引入了这一思想。t r(𝐶𝑇𝐿𝑍𝐶)来源于方程19流形对齐:
在这里插入图片描述
在这里插入图片描述

5.3. Probabilistic Dependency-Based Fusion

  概率图形模型是一种用图形表示随机变量之间的条件依赖关系的概率模型。通常,它使用基于图形的表示作为在多维空间中对完整分布进行编码的基础。图可以看作是一组独立的紧致或因式表示,在特定的分布中。常用的分布图形表示方法有两种,分别是贝叶斯网络和马尔可夫网络(又称马尔可夫随机场[34])。这两个家族都包含了事实化和独立的特性,但是它们在可以编码的独立集和它们所诱导的[9]分布的因式分解上有所不同。例如,一个贝叶斯网络是一个有向无环图,因式分解𝑋1𝑛变量的联合概率,𝑋2,…,𝑋𝑛作为𝑃[𝑋1𝑋2,…,𝑋𝑛]=∏𝑃[𝑋𝑖|𝑃𝐴(𝑋𝑖)]𝑛𝑖= 1。马尔可夫网络是一组随机变量,其马尔可夫性由一个独立的图来描述,它可以是循环的。因此,马尔可夫网络可以表示贝叶斯网络所不能表示的某些依赖关系(如循环依赖关系)。另一方面,它不能表示贝叶斯网络可以表示的某些依赖关系(例如诱导依赖关系)。
  这类方法通过概率依赖来弥补不同数据集之间的差距,它更强调交互而不是两个对象之间的相似性。这与第5节中介绍的基于相似性的方法不同。例如,变量(即从不同数据集中提取的特征)用节点表示,两个不同变量之间的概率依赖(或因果关系)用连接它们的边表示。图形模型的结构可以从数据中自动学习,也可以由人类知识来预先定义。图形模型通常包含要推断的隐藏变量。图形模型的学习过程是在给定目标数据的情况下,估计不同变量之间的概率依赖性。 期望和最大化(EM)算法是常用的方法。推理过程是根据观察到的变量和学习到的参数的值来预测隐藏变量的状态。推理算法包括确定性算法(如变分法)和随机算法(如吉布斯抽样)。有关图形模型的更多细节可以转到[9][36]。
  例13:Shang等人提出基于POIs、路网、行驶速度和天气来推断道路上的交通量。图14为交通量推理(TVI)模型的图形结构,其中灰色节点表示隐藏变量,白色节点表示观测值。每一级路段训练一个TVI模型。
在这里插入图片描述
  具体来说,每个道路上的交通量巷𝑁𝑎(即。每车道,车辆的数量每分钟)的道路seg-ment由四个主要影响因素,包括𝑤天气条件,每天的时间𝑡,道路𝜃的类型,和观察到的样本的体积车辆𝑁𝑡。此外,道路的𝜃是公司决定的道路网络功能𝑓𝑟(比如𝑟。𝑙𝑒𝑛),全球地位功能𝑓𝑔,和周围POIs𝛼受到𝑓𝑝和POIs的总数𝑁𝑝。𝑣̅和𝑑𝑣平均旅行速度和速度方差,分别由谢霆锋模型推断。
在这里插入图片描述
  例14:Yuan等人[74][76]利用从大量出租车出行中获得的路网数据、兴趣点和人员流动性,推断出一个城市的功能区域。如图15所示,提出了一个基于LDA(潜Dirichlet Allo-cation)-变元的推理模型,将一个区域作为文档,一个函数作为主题,POIs(如餐馆和商场)的cat- eg(如作者、从属关系和关键字)作为元数据,人的移动模式作为单词。移动模式被定义为区域间的交换模式。也就是当人们离开一个地区,他们要去哪里,当人们到达一个地区,他们从哪里来。每个交换模式表示一个描述区域的单词,而模式的频率表示一个单词在文档中的出现次数。
在这里插入图片描述
  通过喂养POIs(表示𝑥𝑟)和人类移动模式(表示为𝑚𝑟,𝑛)到这个模型的不同部分,由给出的分布地区,每个移动模式的进一步用一个分布。𝑁代表单词的数量(即。,一个地区的流动模式);𝑅表示文档的数量(地区);𝐾主题的数量,应该是预定义的。在运行该模型之前,城市被分割成不同的区域,使用的是主干道,如高速公路和环城公路。因此,本例还使用了基于阶段的数据融合技术。该模型可以用EM进行估计,也可以用Gibbs sampling进行推断。与基本的LDA模型[5]不同,Dirichlet先验现在根据每个区域的观测POI特征为各个区域指定。
  例15:Zheng等[90]基于以下两个观点,将一个区域内生成的多个数据集结合起来,更好地估计稀疏数据集在该区域内的分布以及该区域的潜在函数。首先,一个区域内的不同数据集可以相互增强。秒,数据集可以跨不同区域引用。图16为模型的图形表示,命名为MSLT (Multi-Source潜话题模型)。
在这里插入图片描述
  𝒇是一个向量存储道路网的特征提取和POIs位于这一地区。𝜼∈ℝ𝑘×|𝒇|是一个矩阵的每一行𝜼𝑡对应于一个潜在的主题;𝑘表示数量的主题和|𝒇|意味着𝒇部件的数量。每个条目的价值𝜼遵循一个高斯分布意味着𝜇和标准差𝜎。𝜶∈ℝ𝑘之前是一个参数的狄利克雷分布在每个区域都话题。主题是𝜽∈ℝ𝑘分布做出𝑑。𝓦={𝑾1,𝑾2,…,𝑾|𝑺|}是词集的集合,在𝑾𝑖是一个词集对应数据集𝑠𝑖和|𝑺|表示参与MSLT数据集的数量。 𝜷 ∈ℝ|𝑾𝒊|狄利克雷之前的参数在每个主题的词分布𝑾𝒊。一个词在𝑾𝑤𝑖是cat-egories𝑠𝑖’ s属于实例,例如𝑾1 ={𝑐1𝑐2,…,𝑐𝑚}
  见图16 B),不同的数据集共享相同的主题分布控制𝜽𝑑,但有自己的topic-word分布𝝋𝑖,1≤𝑖≤|𝑺|,由箭头表示不同的颜色。𝝋𝑖𝑧是一个向量表示这个词词集的主题𝑧分配𝑾𝑖。这与LDA及其变体DMR[44]不同,后者有一个复杂的词集和主题词分布。的主题分布𝜽𝑑地区和topic-word分布𝝋𝑖的数据集𝑠𝑖用于计算每个类别的潜在distribu-tion𝑠𝑖,如果𝑠𝑖非常稀疏,例如𝑝𝑟𝑜𝑝(𝑤𝑖)=∑𝜃𝑑𝑡𝜑𝑡𝑤𝑖𝑡。在这里插入图片描述

5.4. Transfer Learning-Based Data Fusion

  许多机器学习和数据挖掘算法的一个主要假设是,训练和未来的数据必须在相同的特征空间,具有相同的分布。然而,在许多实际的应用程序中,这种假设可能不成立。例如,我们有时在一个感兴趣的领域有一个分类任务,但我们只在另一个感兴趣的领域有足够的训练数据,在另一个领域中,后一个数据可能在不同的特征空间或遵循不同的数据分布。与半监督学习不同,半监督学习假设标记和未标记数据的分布是相同的,而转移学习则相反,它允许训练和测试中使用的领域、任务和干扰是不同的。
  在现实世界中,我们观察到许多跨界学习的例子。例如,学习认桌子可能有助于认椅子。学习骑自行车可能有助于骑摩托车。这样的例子在数字世界中也随处可见。例如,通过分析用户在Amazon上的交易记录,我们可以诊断出他们的兴趣,这些兴趣可能会被转移到另一个旅游推荐应用程序中。从一个城市的交通数据中学到的知识可以转移到另一个城市。

5.4.1. Transfer between the Same Type of Datasets

  Pan和Yang等人的[50]提出了一个很好的调查,根据源-主-主之间不同的任务和情况,将迁移学习分为三类,如表2所示。图17根据标签数据在源域和目标域是否可用,给出了转移学习的另一个分类方法。在任务相同,但目标和来源不同的情况下,提出了转换学习的方法。此外,源域和目标域之间有两种不同的子分类。在第一类中,域之间的特征空间是相同的,但边际概率分布是不同的。现有的大多数关于迁移学习的著作都属于这一范畴。例如,在一个交通预测任务中,我们可以将一个城市的交通数据转移到另一个训练数据有限的城市。在第二类中,域之间的特征空间是不同的。例如,一个域名有中文网页;另一个有英文网页。但是,任务是相同的,即根据网页语义的相似程度对网页进行聚类。杨等人[72]开创了一种叫做“海特一迁移学习”的环境来应付这种情境。这一工作流程有两个方向:1)从源到目标[18]的转换或2)将这两个域投影到一个共同的潜在空间[72][93]。在异构转移学习中,虽然源域和目标域来自不同的特征空间,但是每个主域本身都是同构的,只有一个数据源。
在这里插入图片描述
  :与转换学习不同,归纳学习处理的是源域和目标域任务不同的学习情况。它侧重于存储在解决一个问题时获得的知识,并将其应用于一个不同但相关的问题。多任务学习(MTL)[3]是一种典型的归纳迁移学习方法。MTL使用共享表示将问题与其他相关问题同时学习。这通常会为主要任务带来一个更好的模型,因为它允许学习者使用任务之间的共性[14]。如果这些任务有一些共性,并且稍微采样不足,MTL就可以很好地工作。图17给出了两个MTL的例子。
在这里插入图片描述
  例16:图18 A)显示了两个分类任务之间的学习转移。一项任务是根据一个人在现实世界中的位置历史(例如,通过社交网络服务签到)来推断她对不同旅游套餐的兴趣。另一项任务是根据用户在互联网上浏览过的书籍,来确定用户对不同书籍风格的兴趣。如果我们碰巧有来自同一用户的两个数据集,我们可以在一个MTL框架中关联这两个任务,该框架学习用户的一般兴趣的共享表示。用户浏览过的书籍可能暗示了她的一般兴趣和性格,这些可以转化为旅游推荐。同样,来自用户物理位置的知识也可以帮助估计用户在不同书籍风格中的兴趣。当我们拥有的数据是稀疏的时候,MTL特别有用;例如,我们只有一个用户的少量签入数据。
  例17:图18 B)给出了MTL的另一个例子,它同时预测了近期的空气质量和交通状况。一般的看法是,不同的交通状况会产生不同的空气污染物量,因此对空气质量的影响也不同。同样,人们倾向于在空气质量好的一天去远足或野餐,而倾向于尽量减少在空气质量不好的一天出行。因此,交通状况也受到空气质量的影响。这两个数据集的共享特征表示可以重新组成时间槽中的位置潜在空间。
在这里插入图片描述

5.4.2 Transfer Learning among Multiple Datasets

  在大数据时代,许多机器学习任务必须利用一个领域内的数据多样性,以获得更好的性能。这需要新的技术,可以将多个数据集的知识从一个源转移到一个目标域。例如,像北京这样的大城市可能有足够的数据集(如交通、气象、人员流动等)来推断其细粒度的空气质量。但是,当我们将模型应用到另一个城市时,我们可能根本没有某种数据集(如交通),或者在某些数据集中没有足够的观测数据(如人的流动性)。我们可以把从北京的多个数据集中学到的知识转移到另一个城市吗?
  图19展示了处理多个数据集时的四种转移学习情况,其中不同的形状表示不同的数据集(又称视图)。如图19 A)所示,目标域具有所有类型的数据集(源域具有),每个数据集具有足够的观测值(作为源域)。也就是说,目标域具有与源域相同(且足够)的特征空间。这种情况可以通过多视图转移学习[19][71][77]来处理。例如,Zhang等人[77]提出了一种具有大边界的多视图转移学习方法 (MVTL-LM),该方法利用了来自源域的la-beled数据和来自不同视图的特征。禁用[19]对多视图跨域学习执行特征选择。多视图描述转移(MDT) [71]对每个视图学习判别权向量,同时最小化域差异和视图差异。
  如图19 B)所示,目标域中有些数据集不存在,而其他数据集与源域一样充分。针对这类数据集(又称视图结构)缺失问题,提出了多视图多任务学习[26][32]的研究思路。然而,这些算法无法处理图19所示的情况。C),其中一个目标域有各种数据集,但有些数据集可能只有很少的观测值(或者说非常稀疏),如图所示。19 D),其中有些数据集不存在(视图丢失),有些数据集非常稀疏(观测丢失)。这个问题仍有待研究。
在这里插入图片描述

6. DISCUSSION

  由于不同的方法在不同的应用中表现不同,因此很难判断哪种数据融合方法是最好的。表3给出了这些数据转换方法之间的比较(在第一列中列出),其中第二列(元)表示一个方法是否可以将其他方法合并为元方法。例如,基于语义意义的数据融合方法可以应用于基于阶段的数据融合方法。为了选择合适的数据融合方法,我们需要考虑以下几个因素:
在这里插入图片描述
  1)应用程序中数据集的容量、属性和洞察力。首先,如表3第三卷所示,基于特征的数据融合方法需要大量的标记实例作为训练数据,而基于语义意义的方法可以应用于标记状态数量较少的数据集。其次,在研究一类对象时,例如地理区域,我们需要考虑是否有一些对象实例可以不断地生成标记数据(标题固定或灵活在第四列位置)。例如,我们可以在例7中设置固定的监测站,不断地在某些地区生成空气质量数据。相反,我们不能确保一个地区的居民经常报告311起投诉(在例12中提到)。有时区域A和B有311起投诉,而在其他时间间隔,区域C、D和E有。在一些极端的情况下,311数据是不存在的。也就是说,具有311数据的区域可以灵活地出现,但是不能为一个区域形成稳定的视图类标签对。因此,使用基于多视图的融合方法来处理311示例是不合适的。另一方面,基于相似度的融合方法也无法解决前者的问题。由于站点的位置是固定的,所以有或没有拉贝尔的区域都是固定的。我们不能计算一个有标记数据的区域和另一个总是没有标记数据的区域之间的相似性。第三,一些数据集不会随时间变化,而另一些数据集则是动态的。将静态数据提取的特征与动态数据提取的特征直接结合,会导致机器学习模型忽略静态特征。例如,无论建筑物周围的空气污染程度如何,其周围的道路网络和poi不会随时间而改变。因此,基于特征的融合方法在本例中并不适用。
  2)机器学习和数据挖掘任务的目标、学习方法和要求。首先,多数据集融合的目标包括填充缺失值(稀疏数据集)[53][85][87][88]、预测未来[89]、causality推理、对象概要分析[73][76][74]、异常检测[15][90][49]等。在第五纵队,概率基于数据融合方法可以实现所有这些目标(F P、C、O, A)。特别是,贝叶斯网络和简单的基于特征融合的方法(例如,当使用一个线性回归模型[24])通常善于处理因果关系推理问题©。贝叶斯网络的有向边揭示了不同因素(即节点)之间的因果关系,线性回归模型中一个特征的权值表明了一个因素对一个问题的重要性。随着原始特征被DNN转化为一种中层特征表达,各特征的语义意义也越来越模糊。第二,学习方法分为有监督(S)、无监督(U)和半监督(SS)学习,如第六列所示。例如,监督和半监督学习方法可以应用于基于多视图的数据融合方法。第三,对于数据挖掘任务有一些要求,比如效率和可伸缩性(在最右边的列中显示)。一般来说,基于概率依赖的方法很难按比例放大(N)。一个具有复杂结构的图形模型,例如许多(隐藏的)节点和层,可能会变得难以处理。对于基于相似度的数据融合方法,当矩阵非常大时,可以采用并行操作的NMF加速分解(Y)。
  一般来说,在相同的训练数据量下,直接的基于特征的方法不如基于语义意义的方法,因为特征之间存在相关性和相关性。增加一个稀疏的正规化可以缓解一些前帐篷的问题,但不能从根本上解决它。在一些有大量标记数据的情况下,特别是对于image和语音数据,使用DNNs的基于特征的融合可以很好地完成。然而,模型的性能很大程度上依赖于调优参数。对于一个需要学习许多参数的大型模型,这通常是一个需要人类经验参与的时间消耗过程。此外,在基于多视图的方法和转移学习之间有一些重叠。例如,有多视图、多任务的学习方法。

8. 结论

  大数据的扩散需要先进的数据融合方法,这种方法可以从具有底层连接的多个分离数据集中发现知识。本文总结了现有的数据融合方法,将其分为三类,并对每一类方法进行了实例分析。本文探讨了不同方法之间的关系和区别,帮助人们找到合适的数据融合方法来解决大数据问题。一些公共的多模态数据集已被共享,以促进对数据未来问题的进一步研究。

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值