自 2017 年发表以来被引用次数最多的论文合集——大数据篇

本文汇总了大数据领域被引用次数最多的论文,涵盖随机森林在大数据中的应用、云环境中数据复制技术、项目集挖掘的比较分析、基于Hadoop和Spark的大数据挖掘算法以及在智慧城市中的应用等。这些研究展示了大数据分析、机器学习和分布式计算的最新进展和挑战。
摘要由CSDN通过智能技术生成

来源 | elsevier

译者 | 火火酱

责编 |  邓晓娟

出品 | CSDN云计算(ID:CSDNcloud) 

在学习云计算的过程中,不可避免的就是研究各种文献。而在本文中,我们为大家搜集了大数据领域中被引用次数最多的论文及其摘要,帮助大家理解论文主旨。感兴趣的小伙伴,可以自行搜索进行研究。

大数据随机森林

大数据是统计学面临的主要挑战之一,从算法和理论的观点来看,大数据会带来无数后果。

论文摘要:

大数据包含大量的数据,同时也包含在线数据和数据异构性。近年来,人们通过例如线性回归模型、聚类方法和自举算法等统计学方法来处理大数据。随机森林(random forests)是由Breiman在2001年提出的一种基于决策树、集合和自举思想的方法。通过这种强大的非参数统计方法,可以在单一和通用的框架中考虑回归问题以及两类和多类分类问题。

针对分类问题,本文对现有的将随机森林应用于大数据的提议有选择地进行了回顾。这些提议是基于并行环境以及随机森林的线上应用之上的。本文还将解释在这些方法中如何处理袋外错误(out-of-bag error)。

接下来,本文在大数据背景下对随机森林进行了各类解释。最后,在两个庞大的数据集(1500万和1.2亿的观测数据)、一个模拟数据集以及真实世界数据上实验了5个变量。结果显示,其中一个变量需二次采样。另外三个变量则与随机森林的并行化实现相关,或涉及自举法在大数据中的各种应用,或涉及“分而治之(divide-and-conquer)”算法。第五个变量与随机森林的在线学习有关。这些数值试验突出了不同变量的相对性能,也揭示了一些局限性。

系统化文献综述之云环境中数据复制技术

论文摘要:

云计算面临着许多挑战,其中之一就是使用复制数据。数据复制是分布式海量数据管理的一项重要技术。其主要目的是将数据放置在不同的位置,从而在不同位置有同一特定文件的多个副本。

复制是分布式环境中广泛研究的对象之一,在分布式环境中,一些数据的多个副本会被储存在不同地方,在其中解决创建、维护和更新副本的成本是非常重要且具挑战性的问题。在过去的十年里,分布式计算的应用和架构发生了巨大变化,同时,复制协议也发生了巨大变化。

然而,尽管这个问题十分重要,但到目前为止,还没有在分布式云环境中系统地研究过该问题。云环境中的数据复制分为静态方法和动态方法。在静态算法中,创建的副本数从一开始就是常量,是由用户从开始就决定的,或者是由云环境决定的。而在动态算法中,考虑到其所属的环境,副本数是由用户的访问算法来决定的。本文旨在系统地回顾这两类算法的数据复制技术,并分别讨论两者的特点。

大数据之项目集挖掘:比较分析

论文摘要:

众所周知,项目集挖掘是一项探索性数据挖掘技术,用于发现隐藏在数据集合中所有有趣的关联。由于它支持不同的目标分析,因此它在从网络流量数据到医疗记录的各种不同领域中都是十分有益的。

随着数据量的增加,人们利用Apache Hadoop和Spark等分布式计算框架的优势开发出了不同的可扩展性数据挖掘算法。本文通过理论和实验的对比分析,回顾了处理大数据领域频繁项目集挖掘问题的基于Hadoop和Spark的可扩展性算法。由于项目集挖掘目标计算量很大,因此其分布和并行化策略会严重影响内存的使用、负载平衡和通信成本。

本文详细讨论了频繁项目集挖掘分布式方法的算法选择方法,然后通过实验分析比较了最先进的分布式算法在合成数据集和实际数据集上的性能。在数据集特征(例如数据分布、平均事物长度、记录数)和特定参数设置方面详细讨论了算法的优缺点。最后,在理论分析和实验分析的基础上,提出了项目集挖掘问题并行化的开放研究方向。

为智慧城市提供关联数据:以卡塔尼亚为例

论文摘要:

语义网技术,特别是关联开放数据,提供了一种将城市作为物质、社会和技术系统共享知识的方法,从而支持智慧城市应用程序的开发。

本文通过介绍一个基于卡塔尼亚安利的原型,旨在分享经验教训,可为其他有类似需求的案例提供实践参考。

本文讨论了实现句法和语义互操作性的重要性(作为将异构数据源转换为关联数据的结果):语义互操作性在数据级得到解决,以便顶层的进一步开发。我们提出了一个智能城市综合数据模型,该模型集成了多个数据源,包括地理参考数据、公共交通、城市故障报告、道路维护和城市垃圾收集。针对公共交通、城市故障报告和道路养护等领域,提出了一些新的本体设计模型。邀请领域从业者和普通公众使用原型并填写问卷,提供问题和反馈。

同时,还进行了一个计算实验,以评估该数据模型在实际可扩展性方面(而不是增加数据和在复杂情况下的效率方面)的性能。研究所产生的所有数据、模型、原型和调查问卷结果都可从网上公开获取。

 

一种使用灰狼优化算法和MapReduce的新聚类方法

论文摘要:

随着技术的进步,数据量正迅速增长。需要更加高效地分析方法来支持有关数据的智能决策。数据聚类是一种重要的数据挖掘分析方法,广泛应用于数据分析领域。面对日益增长的海量数据集的分析需求,当今迫切需要改进传统的数据分析方法。

本文针对大规模数据集基于提出了一种有效的聚类方法——基于MapReduce的灰狼优化算法(MR-EGWO)。该方法引入了一种新型的灰狼优化算法——增强型灰狼优化算法(EGWO),将灰狼的搜索策略与二项式交叉混合,并引入了莱维飞行(lévy flight)步骤,从而增强搜索能力。

此外,该算法还可被用于优化聚类过程。实验在七个UCI基准数据集上测试了EGWO的聚类效率,并将其与五种现有的聚类技术(即K-均值、粒子群优化(PS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值