学习文章Learning robust uniform features for cross-media social data by using cross autoencoders

摘要

    跨媒体分析采用实时多元不同形态社交数据来挖掘知识,或者是更好的理解事物本质。有两个层次的跨媒体社交数据。其一,是元素层级的,该层级是由文本、图片、声音或者其他组合体构成,源自同一数据源矿业有不同的模式。另一层次的跨媒体数据是由一系列的聚合体——一系列时间序列元素共享相同的语义(例如,一系列阶段、图片、博客或者新闻事件报道)。然而传统的特征提取分析方法关注处理单个形态数据源或者数据跨多形态融合。本文研究中,将系统分析两个层次的跨媒体社交数据特征学习方法涉及到的问题,目标是提出一种跨不同形态的时序社交数据的健壮且均衡方法。我们提出一种全新的无监督方法进行交叉模态级别(Cross-modality Correlations)的学习模式即就是cross autoencoder(Cross autoencoder)。CAE可以捕获跨形态元素样例的相关性,此外,通过CNN扩展该方法到AS(聚合主题Aggregative Subject),即就是卷积交叉自编码CCAE(Convolutional cross autoencoder)。使用CAEs过滤器处理CCAE中除了跨模态元素,使用CNN框架来处理时序且降低AE的外部影响。最后,应用这些新提出的解决方法测试其在分类任务的质量。发现,该方法在其他现实世界社交媒体数据集合中的表现,就其准确度而言,CAE在上述两种层次的社交媒体数据上平均有7.33%和14.31%准确度提升度,而CCAE则平均有11.2和60.5%的平均提升度。实验结果表明,提出的CAE和CCAE在所有的测试分类任务中,其性能均优于其他积累基本特征学习的方法。

引言

    随着因特迅猛发展,人们变得更加依赖于社交联系。社交媒体数据形态也展现多态化,比如,文本、图片、音频和社交聚合体等等。此外,数据形态也变得非常之多。社交媒体数据产生了多种相关结构和独特的统计特性。传统的解决方式关注于处理单个模态的数据或者相同模态混合的行驶。相反,跨媒体学习关注于多个模式或者不同模式的多媒体数据。源自于不同源的多媒体数据需要被解释为一种标准探索事物的方法。我们把该问题作为跨媒体需要解决的核心问题。

    跨媒体数据有两种层次,分别是:基于元素的和聚合主题的。在元素层次,用户创建并传播不计其数的社交媒体元素,比如博客、推特或者其他图像、视频等包含了特定文字注释说明或者标题描述等,然而,并非每一个博客都包含了图片,也并非所有视频都包括主题描述。而在聚合主题层次,一些列的社交媒体元素都是围绕主题展开的 。比如,构成专辑的图片共享网站比如Flickr或者Intagram,都是围绕主题的案例,Tweets设置时间线也是围绕主题的实例;问题和批注构成的Q&A社区比如StackExchange和Quora的处理流水线案例也是AS案例。此外,基于危机事件的比如Fukushima地震,形形色色的人们上传图片,街道或者是分享blog围绕该主题。比如,这些围绕社会问题的地震案例就是典型的AS样例。该样例体现了AS样例的两大特色:(1)时间序列展开;(2)每个元素都包含多个形态。此外,元素的形态彼此相异,元素保持多个或者不同的形态。

    本文中,目标是获取跨媒体社交元素稳定特征以及同事抽取AS的平均特征。该问题是非平凡的并且设置一系列的独特的挑战。首先,元素是跨形态集合,可以包含多个形态,形态之间可以彼此相异,那么,如何获取模态不变量的表示?第二,围绕主题AS的元素是基于时间序列创建的,每个元素都有独特的文本,如何才能最大化使用时间序列和内容信息?第三个,围绕主题元素通常存在一些离散点,通常有一些噪声干扰因子围绕元素,比如,在旅行主题文档中包含了“签证”资源的图片,如何降低这些干扰因子的数据影响。

    

    红色点画线框表示本研究所解决的问题,红色点画线框图中的实线表示元素的ASs的时间线。在该线上一次罗列时间线,带有箭头的点画线表示社交交互的目标。

    深度学习,最大化深度结构和学习算法效能,已经作为解决许多综合性问题的有效方法。Krizhevsky展示了一种在图片分类有效地使用CNN提升效能的方法。DNN同样成功地解决了非结构化数据。研究表明,神经网络解决回归问题。在结合神经网络与其他智能范式领域,周志华也在混合系统信任测试中使用DNN作为文本识别程式。

    我们分别构建了跨媒体社交元素特征学习问题和AS特征学习问题。我们提出一种非监督学习的特征学习跨媒体元素,即就是交叉编码和两阶段训练方法来解决大量跨形态数据样例。CAE也可以通过作物策略引入学习狂形态相关性。此外,引入CNN框架以及CAE过滤来解决AS特征提取学习过程,即就是CCAE。

    我们的贡献总结如下:

    我们给出了跨媒体数据以及围绕主题AS的跨媒体数据深度学习的程式,并通过文本分类来评估学习的特征;

    我们在两阶段非监督学习方式中,提出交叉自编码(CAE)学习跨媒体社交元素的模态不变量特征;

    通过使用交叉自编码作为过滤器来处理跨媒体元素,使用CNN框架来学习社交主题的特征,CNN框架可以管理时间序列社交主题,并降低社交数据中的干扰的因子的影响;

    为了评估我们推出的学习算法的质量,通过抓取真是世界的社交媒体网站数据集:微博,搜狗和Flickr等,我们通过我们提供的CAE和确定性主题AS的CCAE进行实验进行社交分类,其准确性,两种算法CAE和CCAE分别获取到7,33%和CCAE获得14.31%增加相比于元素层级的数据集以及11.2%和60.5%增长率。

    文章其他部分的组织如下:第二章,给出跨媒体社交数据的特征学习问题方程式,第三章,简明给出当前特征抽取和基于autoencoder的深度学习主流的方法,第四章,提出社交媒体元素层次的学习模态不变特征CAE方法,以及给出主题相关的社交媒体使用CCAE学习均衡特征;第五章,给出一些实验结果;第六章,

问题方程式

    考虑到通常跨媒体学习任务,通常包含三个阶段,分别是:特征学习阶段,监督学习阶段以及测试阶段。考虑不同数据模态数据实验,通常有许多与跨媒体相关的设置任务:跨媒体设置,跨模态融合设置、跨模态设置以及共享表示设置。特征学习数据集,通常大规模且非标签的,定义为Du;监督学习标签数据数据集定义为Dv;测试数据集则被定义为Dw。总结四个设置如下表格1所示:


    传统的研究关注于单个多媒体模态,所有标签和非标签的训练数据,也包括测试数据,都是报考相同的模态k。跨膜太融合考虑不同模态正如所有模态在所有的阶段均是可用的。为了实现融合不同模态的目标,数据或者早期或者晚期融合的方式,跨模态设置旨在学习非标记的多模态数据更好的表示方式。所有模态的数据在特征学习阶段均是有价值的。共享特征表示在考虑学习的特征必须能够捕获不同模态的数据相关性表示,是更有挑战性的课题。监督训练阶段和测试阶段,不同模态都需要展现出来。跨媒体学习问题可以通过跨模态设置和共享表示设置来解决。

    定义1:

    社交媒体元素,或者一个元素,是一个多模态数据样例Xj={Xj,1; Xj,2; ……;Xj,K}其中,有K个可能的模态,Xj,K包含于R^Mk,k包含于1,2,……,K,Xj是一个**维度的数据向量。

    定义2:

    

    3.2. 自编码

    自编码是仅有一个隐藏层的投影网络来重构原始的输入数据。输入和输出层是同样大小,重构过程可以如下所示:

    

    x表示的是原始输入(raw input或者低层刺激物);W,^W以及b,^b分别表示的是自编码权值和偏差。g和^g则是每层的非线性激活函数,激活函数采取的是DNN的激活函数,如下所示:


    y表示的是x的隐藏层,而^x表示的是重构过程,该自编码的参数集合为,重建^x是一个决定性的函数x可以写成^x(x;Sita),自编码的性能表示可以通过如下损失函数来表示


    第二项的函数,是一个通常在降低自编码的特征量而采取的正则化的形式。经过自编码以一种非监督的模式预训练,隐藏层将获取到统计的输入模式和采取一些列非线性特征表示的统计信息。通过将输出表示输入到后续子层作为子层输入,这种堆叠的自编码方式,将会产生堆叠自编码深度特征。

    文森特(Vincent)等人推出了使得学到的特征具备鲁棒性的思想来扩展自编码,即就是降低噪声的自编码技术(Denoise Autoencoder DAE)。在特征学习阶段,每个输入样例被打乱并其固定数目组件被随机的选择,且初始设置为0。之后,选择的组件信息从特定样例中删除,然后,使用DAE训练来填充缺损的空缺。该训练模型具有对输入数据发生较小的无规则改变鲁棒性。

    近期,研究者采用深度学习来处理跨媒体数据。Ngiam等人提出了基于堆叠(Stacked PBM)集成视频和音频信息双模态学习模型。Svivastava等人提出的DNN解决文本和图片融合来进行分类和信息检索并在实际应用中取得了惊人的效果。Feng等人,采用了相关的自编码技术检索问题检索相关单模态自编码隐藏。

    自编码方式,我们的解决方案不用于之前CAE可以通过多重和不同模态的大量数据学习交叉模态相关性。跨媒体社交数据源于多模态,大部分的数据都是不完备的。在实际社交数据分析任务中具备多模态数据和不完备的数据学习能力是非常重要的分析任务。这也是我们CAE目标所在。

    CNN具备大容量学习能力,然而,CNN相比于相似大小的标准网络层,其有更少的连接和参数需要学习。关键就是通过卷积运算来替换层间全连接所需要的前馈操作。CNNs关注于学习图片、语音讲稿或其他数据的固定的本地属性。我们可以通过一系列的单个社交媒体对象来学习主题层次特征来描述AS。

    池化(pooling)技术在CNNs中经常提到,是用于降低特征图片的大小。通常有两种池化操作:最大化池化策略和平均池化策略。前者估算特征图片中最大的激活数据,然而后者则是平均激活数值函数。

    本文提到的CCAE则是基于CNN框架的。我们使用CAE来替换卷积过滤以便能够解决跨媒体数据,而且,训练CAE的过滤来训练离线抽取的目标数据集。跨媒体社交主题特征学习。采用了CCAE来解决新奇和非平凡问题。

    4 提出的方法

    由于我们在两个层次规划问题,一个是元素层次另一个是AS层次(主题层次),我们解决社交数据的特征学习问题。

    第一个问题,我们处理的是采用跨模态元素。跨模态意味着社交媒体元素通常包含多余一个模态,此外,表示通常也由于不同形态或者模态损失而是非均匀分布的。我们提出cross autoenoders(CAEs)来基于规则的解决不变的模特特征。

    第二个问题,学习主题相关的AS的均匀特征,解决三个问题:时间序列,跨模态以及外部扰动,在本章结尾,提出convolutional cross-modalities(CCAE)卷积交叉编码方式,在该方法中,使用CNN框架来管理时间序列数据和外部扰动,此外,我们提出CAE作为CNN过滤来解决模态不变的表示方式。

    卷及交叉自编码(CCAE)目标不同于低层次的模态多媒体数据。比如,DAE,二进制深度简明网络,以及CAE,CCAE关注于学习主题高层及特征。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值