spark
编程人生之路
这个作者很懒,什么都没留下…
展开
-
spark sql rdd转换为datafram
描述:RDD转换为DataFrame为什么要将RDD转换为DataFrame?因为这样的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使用Spark SQL进行SQL查询了。这个功能是无比强大的。想象一下,针对HDFS中的数据,直接就可以使用SQL进行查询。Spark SQL支持两种方式来将RDD转换为DataFrame。第一种方式,是使用反射来推断包含了特定数据类型的RDD的元数据。这种基于反射的方式,代码比较简洁,当你已经知道你的RDD的元数据时,是一种非常不错的方式。.原创 2020-06-17 23:36:39 · 280 阅读 · 0 评论 -
spark sql 集群小文件太多解决方式
hive外部分区表,每个分区下有200个小文件某张表有三个分区字段(partition_brand, partition_date, partition_rssc)则生成小文件个数:2 * 26 * 8 * 200 = 83,200这个表还算一般,如果按照年月日进行分区的话,小文件就太多了先查看集群动态资源配置:再查看执行spark程序配置资源:--driver-memory 30g \--executor-memory 12g \--num-executors 12 .转载 2020-05-25 23:53:55 · 948 阅读 · 0 评论 -
spark 生产环境使用资源小结
使用集群运行spark-sql计算 初始化大宽表 近二十年所有数据!1700个Tasks(计算10min + 写入30min)计算两年数据量:130G计算三年数据量:190G平均每年数据量:60G+(2000万条)提交资源申请:每个executor申请内存为16G--executor-memory 12g \--conf spark.yarn.executor.memoryOverhead=4096m \由于进行repartition(10)操作所以该集群最大处理数据量为1转载 2020-05-25 23:37:38 · 198 阅读 · 0 评论 -
Spark基础教程
Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark特点Spark具有如下几个主要特点:运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比Hadoop MapReduce快上百倍,基于磁盘的执行速度也能快十倍;容易使用:Spark支持使用Scala、Java、Python和R语言进行编程转载 2020-05-21 16:56:24 · 222 阅读 · 0 评论 -
spark的宽窄依赖,容错,stage划分,再也不怕面试了
1.宽窄依赖图中左边是宽依赖,父RDD的4号分区数据划分到子RDD的多个分区(一分区对多分区),这就表明有shuffle过程,父分区数据经过shuffle过程的hash分区器(也可自定义分区器)划分到子RDD。例如GroupByKey,reduceByKey,join,sortByKey等操作。图右边是窄依赖,父RDD的每个分区的数据直接到子RDD的对应一个分区(一分区对一分区),例如1号到5号分区的数据都只进入到子RDD的一个分区,这个过程没有shuffle。Spark中Stage的划分.转载 2020-05-21 10:34:58 · 455 阅读 · 0 评论