![](https://img-blog.csdnimg.cn/201910241354346.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据云计算
文章平均质量分 97
大数据与云计算环境搭建与使用
GtLinyer
计算机科学与技术;
生物医学工程
展开
-
实验二:Spark 集群构建
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。原创 2019-10-08 21:37:07 · 618 阅读 · 0 评论 -
实验一:Hadoop集群搭建
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。原创 2019-10-07 01:02:24 · 6076 阅读 · 0 评论