- 博客(2)
- 收藏
- 关注
原创 Spark
标题spark spark是一种快速,通用,可扩展的大数据计算引擎,由scala编写。spark是基于内存计算的大数据并行计算框架,由spark core,spark Streaming,spark SQL,MLib,GraghX,独立调度器,Yarn,Mesos组成。 spark Core:实现了Spark的基本功能,包含任务调度,内存管理、错误恢复、与存储系统交互等模块。Spark Core ...
2019-11-25 19:41:26 97
原创 hadoop简介与安装
Hadoop:一个分布式系统构架 hadoop主要解决海量数据的存储于分析计算的问题。高可靠,高扩展,高效,高容错。(集群不一定是分布式,分布式一定是集群) 组成: Hadoop HDFS:一个高可靠,高吞吐量的分布式文件系)。 Hadoop MapReduce:一个分布式的离线并行框架。 Hadoop YARN:作业调度与集群资源管理的框架。 Hadoop Common:支持其他模块工具。 HD...
2019-11-05 20:37:19 180 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人