![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 88
水裕月
只要找对方向,一切都不算太晚
展开
-
基于apache ambari 的大数据平台搭建并运行WordCount
操作系统:3个 rhel 6.4,内存2g,动态硬盘20g。 虚拟机软件:virtualBox 注意: 1、yum可能要重新安装,可百度解决 1、确保三个host能互相ping通每个host配置DNS vi /etc/hosts为host4安装http服务 yum install httpd用Xftp4软件连接host4的文件系统连接成功后显示进入目录/var/www原创 2017-05-14 13:05:24 · 1398 阅读 · 2 评论 -
基于MapReduce的并行k-means聚类
摘要:在许多应用上,数据聚类已经受到了广泛的关注,比如数据挖掘、文本检索、图像分割和模式识别。随着科技的进步而逐渐扩大的信息量使大数据聚类变成了一个具有挑战性的任务。为了解决这个问题,许多调查研究者尝试去设计一种高效的并行聚类算法。在这篇文章中,我们提出一种基于MapReduce的并行k-means聚类算法,这是一种简单又强大的并行编程技术。实验结果表明所提出的算法可以大规模而且高效地在廉价的硬件上处理大型数据集。翻译 2017-06-02 07:39:50 · 15241 阅读 · 2 评论 -
Spark:工作集上的集群计算
摘要:MapReduce和它的变形在大规模数据密集型应用的实现上取得了巨大的成功。然而,多数的这些系统是围绕一个不适合其他流行应用程序的非循环数据流模型构建的。这篇文章把重点放在一类这样的应用程序:那些在多个并行操作中重用一组工作数据的应用程序。这包括许多迭代的机器学习算法,以及交互的数据分析工具。我们提出了一个叫做Spark的新框架,它支持这些应用程序,同时保持了MapReduce的可扩展性和容错翻译 2017-06-20 14:52:47 · 1666 阅读 · 0 评论 -
HaLoop:大集群上高效的迭代数据处理(上)
摘要:超大规模数据挖掘和数据分析需求的日益增长,引领着工业和学术界设计大数据计算平台新模式。MapReduce和Dryad是两种流行的平台,数据流在这两种平台上采用操作符的有向非循环图形式。迭代程序在数据挖掘、网页排名、图像分析、模型拟合等许多应用领域中自然而然地出现了,而这两种平台缺乏对迭代程序的内嵌支持。在这篇文章中会呈现HaLoop,这是一种改进的用来服务于各种应用的Hadoop MapRed翻译 2017-06-09 12:49:12 · 7026 阅读 · 0 评论 -
spark on yarn cluster 与 client 模式的区别
Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN ),集群管理负责启动executor进程,编写Spark application 的人根本不需要知道Spark用的是什么集群管理。Spark支持的三种集群模式,这三种集群模式都由两个组件组成:master和slave。Master服务(YARN ResourceManager,Mesos master和Spark standalone转载 2017-07-13 08:47:42 · 1932 阅读 · 0 评论 -
HaLoop:大集群上高效的迭代数据处理(下)
本文详细了介绍三种在HaLoop上实现的迭代算法:PageRank,Descendant Query,K-means聚类。翻译 2017-06-12 21:11:26 · 1091 阅读 · 0 评论 -
Twister: 迭代MapReduce计算框架
这篇文章中,我们提出了一种编程模型和Twister结构,这是一种增强的MapReduce runtime,它支持高效地迭代MapReduce计算。我们也展示了在大型数据并行应用上Twister与其它类似的runtimes的性能比较,如Hadoop和DryadLINQ。翻译 2017-06-15 10:20:52 · 2161 阅读 · 1 评论