![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据体系
modefrog
做人有多大气,人生就有多成功,
做事有多努力,未来就有多幸运,
放下你三天打鱼两天晒网的态度,
万丈高楼平地起辉煌还得靠自己,
人生的精彩需靠自己的双手创造,
生命在于折腾,努力,与君共勉!
展开
-
Hive知识积累
Hive是构建在Hadoop HDFS上的一个数据仓库,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,其本质是将SQL转换为MapReduce程序。数据仓库是一个面向主题的、集成的、不可更新的、随时间变化的数据集合,它用于支持企业或组织的决策分析处理。Hive的表其实就是HDFS的目录/文件。1.Hive的体系结构 Hive默认采用的是Derby数据库进行元数据的...原创 2018-03-10 11:02:45 · 471 阅读 · 0 评论 -
Spark之pipeline机制
1、pipeline的产生 从一个现象说起,有一家咖啡吧生意特别好,每天来的客人络绎不绝,客人A来到柜台,客人B紧随其后,客人C排在客人B后面,客人D排在客人C后面,客人E排在客人D后面,一直排到店面门外。老板和三个员工首先为客人A准备食物:员工甲拿了一个干净的盘子,然后员工乙在盘子里装上薯条,员工丙再在盘子里放上豌豆,老板最后配上一杯饮料,完成对客人A的服务,送走客人A,下一位客人B开始被...转载 2018-03-16 14:19:43 · 2276 阅读 · 0 评论 -
Spark宽窄依赖详解
1.宽窄依赖 图中左边是宽依赖,父RDD的4号分区数据划分到子RDD的多个分区(一分区对多分区),这就表明有shuffle过程,父分区数据经过shuffle过程的hash分区器(也可自定义分区器)划分到子RDD。例如GroupByKey,reduceByKey,join,sortByKey等操作。图右边是窄依赖,父RDD的每个分区的数据直接到子RDD的对应一个分区(一分区对一分区),例如1号到5号...原创 2018-03-16 14:55:29 · 22853 阅读 · 4 评论 -
Spark控制算子
Spark控制算子1. 控制算子分类Spark中控制算子也是懒执行的,需要Action算子触发才能执行,主要是为了对数据进行缓存。cache(),persist(),checkpoint()算子其中【cache () = persist()=persist(StorageLevel.Memory_Only)】以上算子都可以将RDD持久化,持久化的最小单位是partition。SparkConf c...原创 2018-03-16 15:04:35 · 503 阅读 · 0 评论 -
Shuffle原理剖析与源码分析
文章转自:http://blog.csdn.net/github_36444580/article/details/78637355对比Spark与MR中的shuffle1.Shuffle是MapReduce框架中的一个特定的phase(时期),介于Map phase和Reduce phase之间,当Map的输出结果要被Reduce使用时,输出结果需要按key哈希,并且分发到每一个Reducer上...转载 2018-03-16 15:20:35 · 512 阅读 · 0 评论 -
Spark执行流程
启动流程 我们写的spark程序,打成jar包,用spark-submit来提交; local模式:当我们的程序提交到集群上时,会加载并执行我们的jar包,并找到jar包中的main函数执行一遍,执行main函数所启动的这个进程名就是SparkSubmit,这个进程就是我们所说的Driver进程; cluster模式:会在集群中找到一台node,启动一个进程执行一遍我们提...原创 2018-03-18 11:23:03 · 1739 阅读 · 1 评论