大数据体系_modefrog的博客-CSDN博客

大数据体系

关注

关注数：文章数：6 文章阅读量：28353 文章收藏量：124

作者: modefrog

做人有多大气，人生就有多成功，做事有多努力，未来就有多幸运，放下你三天打鱼两天晒网的态度，万丈高楼平地起辉煌还得靠自己，人生的精彩需靠自己的双手创造，生命在于折腾，努力，与君共勉！

展开

Hive知识积累

Hive是构建在Hadoop HDFS上的一个数据仓库，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能，其本质是将SQL转换为MapReduce程序。数据仓库是一个面向主题的、集成的、不可更新的、随时间变化的数据集合，它用于支持企业或组织的决策分析处理。Hive的表其实就是HDFS的目录/文件。1.Hive的体系结构 Hive默认采用的是Derby数据库进行元数据的...

原创 2018-03-10 11:02:45 · 471 阅读 · 0 评论
Spark之pipeline机制

1、pipeline的产生从一个现象说起，有一家咖啡吧生意特别好，每天来的客人络绎不绝，客人A来到柜台，客人B紧随其后，客人C排在客人B后面，客人D排在客人C后面，客人E排在客人D后面，一直排到店面门外。老板和三个员工首先为客人A准备食物：员工甲拿了一个干净的盘子，然后员工乙在盘子里装上薯条，员工丙再在盘子里放上豌豆，老板最后配上一杯饮料，完成对客人A的服务，送走客人A，下一位客人B开始被...

转载 2018-03-16 14:19:43 · 2276 阅读 · 0 评论
Spark宽窄依赖详解

1.宽窄依赖图中左边是宽依赖，父RDD的4号分区数据划分到子RDD的多个分区（一分区对多分区），这就表明有shuffle过程，父分区数据经过shuffle过程的hash分区器（也可自定义分区器）划分到子RDD。例如GroupByKey，reduceByKey，join，sortByKey等操作。图右边是窄依赖，父RDD的每个分区的数据直接到子RDD的对应一个分区（一分区对一分区），例如1号到5号...

原创 2018-03-16 14:55:29 · 22853 阅读 · 4 评论
Spark控制算子

Spark控制算子1. 控制算子分类Spark中控制算子也是懒执行的，需要Action算子触发才能执行，主要是为了对数据进行缓存。cache()，persist()，checkpoint()算子其中【cache () = persist()=persist(StorageLevel.Memory_Only)】以上算子都可以将RDD持久化，持久化的最小单位是partition。SparkConf c...

原创 2018-03-16 15:04:35 · 503 阅读 · 0 评论
Shuffle原理剖析与源码分析

文章转自：http://blog.csdn.net/github_36444580/article/details/78637355对比Spark与MR中的shuffle1.Shuffle是MapReduce框架中的一个特定的phase（时期），介于Map phase和Reduce phase之间，当Map的输出结果要被Reduce使用时，输出结果需要按key哈希，并且分发到每一个Reducer上...

转载 2018-03-16 15:20:35 · 512 阅读 · 0 评论
Spark执行流程

启动流程我们写的spark程序，打成jar包,用spark-submit来提交； local模式：当我们的程序提交到集群上时，会加载并执行我们的jar包，并找到jar包中的main函数执行一遍，执行main函数所启动的这个进程名就是SparkSubmit，这个进程就是我们所说的Driver进程； cluster模式：会在集群中找到一台node，启动一个进程执行一遍我们提...

原创 2018-03-18 11:23:03 · 1739 阅读 · 1 评论

大数据体系

作者: modefrog

Hive知识积累

Spark之pipeline机制

Spark宽窄依赖详解

Spark控制算子

Shuffle原理剖析与源码分析

Spark执行流程