大数据学习与分享的博客

【微信公众号：大数据学习与分享】专注于大数据领域常用技术，如Spark、Hadoop、Hive、HBase、Kafka、Zookeeper等技术的使用、实战技巧、源码解读，语言主要以Java和Scala为主

12月 11月

原创关于HDFS应知应会的几个问题

1.Namenode的安全模式？安全模式是Namenode的一种状态（Namenode主要有active/standby/safemode三种模式）。2.哪些情况下，Namenode会进入安全模式？a. Namenode发现集群中的block丢失率达到一定比例时（默认0.01%），Namenode就会进入安全模式，在安全模式下，客户端不能对任何数据进行操作，只能查看元数据信息b. 在h...

2019-12-21 15:03:04 500

原创 Spark集群和任务执行

【前言：承接《Spark通识》篇】Spark集群组件Spark是典型的Master/Slave架构，集群主要包括以下4个组件：Driver：Spark框架中的驱动器，运行用户编写Application 的main()函数。类比于MapReduce的MRAppmasterMaster：主节点，控制整个集群，监控worker。在Yarn模式中为全局资源管理器Worker：从节点，负责控制计...

2019-12-09 20:46:38 335

HDFS（Hadoop Distributed File System）分布式文件存储系统，主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务，同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树，客户端可通过路径来访问文件，如hdfs://namenode:port/dir-a/a.data。HDFS集群分为两大角色：Namenode、D...

2019-12-07 20:52:23 363

原创 Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

Spark算子主要划分为两类：transformation和action，并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提到，Spark RDD的缓存和checkpoint是懒加载操作，只有action触发的时候才会真正执行，其实不仅是Spark RDD，在Spark其他组件如SparkStreaming中也是如此，这是Spark的一个特性之一。像...

2019-12-01 11:59:51 1335 1

原创详解MapReduce（Spark和MapReduce对比铺垫篇）

本来今天是不打算写MapReduce的，但是考虑到目前很多公司还都在用这个计算引擎，以及后续要讲的Hive原生支持的计算引擎也是MapReduce，并且为Spark和MapReduce的对比做铺垫，笔者今天详细阐述一下MapReduce。鉴于Hadoop1.X已过时，Hadoop3.X目前用的还不多，企业中目前大量运用的还是Hadoop2.X，所以以下都是基于Hadoop2.X版本的MapRedu...

2019-12-01 11:41:38 489

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 关于HDFS应知应会的几个问题

原创 Spark集群和任务执行

原创 必须掌握的分布式文件存储系统—HDFS

原创 Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

原创 详解MapReduce（Spark和MapReduce对比铺垫篇）

空空如也

空空如也

原创关于HDFS应知应会的几个问题

原创必须掌握的分布式文件存储系统—HDFS

原创详解MapReduce（Spark和MapReduce对比铺垫篇）