- 博客(5)
- 收藏
- 关注
原创 关于HDFS应知应会的几个问题
1.Namenode的安全模式 ?安全模式是Namenode的一种状态(Namenode主要有active/standby/safemode三种模式)。2.哪些情况下,Namenode会进入安全模式 ?a. Namenode发现集群中的block丢失率达到一定比例时(默认0.01%),Namenode就会进入安全模式,在安全模式下,客户端不能对任何数据进行操作,只能查看元数据信息b. 在h...
2019-12-21 15:03:04 500
原创 Spark集群和任务执行
【前言:承接《Spark通识》篇】Spark集群组件Spark是典型的Master/Slave架构,集群主要包括以下4个组件:Driver:Spark框架中的驱动器,运行用户编写Application 的main()函数。类比于MapReduce的MRAppmasterMaster:主节点,控制整个集群,监控worker。在Yarn模式中为全局资源管理器Worker:从节点,负责控制计...
2019-12-09 20:46:38 334
原创 必须掌握的分布式文件存储系统—HDFS
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件,如hdfs://namenode:port/dir-a/a.data。HDFS集群分为两大角色:Namenode、D...
2019-12-07 20:52:23 363
原创 Spark为什么只有在调用action时才会触发任务执行呢(附算子优化和使用示例)?
Spark算子主要划分为两类:transformation和action,并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到,Spark RDD的缓存和checkpoint是懒加载操作,只有action触发的时候才会真正执行,其实不仅是Spark RDD,在Spark其他组件如SparkStreaming中也是如此,这是Spark的一个特性之一。像...
2019-12-01 11:59:51 1335 1
原创 详解MapReduce(Spark和MapReduce对比铺垫篇)
本来今天是不打算写MapReduce的,但是考虑到目前很多公司还都在用这个计算引擎,以及后续要讲的Hive原生支持的计算引擎也是MapReduce,并且为Spark和MapReduce的对比做铺垫,笔者今天详细阐述一下MapReduce。鉴于Hadoop1.X已过时,Hadoop3.X目前用的还不多,企业中目前大量运用的还是Hadoop2.X,所以以下都是基于Hadoop2.X版本的MapRedu...
2019-12-01 11:41:38 489
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人