spark
文章平均质量分 92
程序猿-瑞瑞
大数据开发程序员~!欢迎关注共同进步!坚持不断学习给自己充电,但是同时保护好自己的头发哈哈哈
展开
-
spark入门3-RDD算子
spark入门3-RDD算子RDD算子1、通用类算子mapmapPartitionsmapPartitionsWithIndexflatmapglomgroupByfiltersampledistinct2、shuffle2.1官网解读Shuffle operations(shuffle操作)Background(背景)Performance Impact(性能影响)2.2总结3、分区器3.1hash分区器3.2range分区器3.3默认分区器3.4自定义分区器 RDD算子 1、通用类算子 map /*原创 2020-11-30 23:11:42 · 182 阅读 · 0 评论 -
spark入门2-SparkCore架构
spark入门2-SparkCore架构SparkCore架构一、流程1、wordCount流程2、RDD2.1源码2.2特征属性2.3RDD的创建3、并行度、分区3.1hadoopRDD3.2ParallelCollectionRDD二、技巧 SparkCore架构 一、流程 1、wordCount流程 val conf = new SparkConf().setMaster("local").setAppName("WordCount") val context = new SparkC原创 2020-11-30 23:10:59 · 147 阅读 · 1 评论 -
spark入门1-运行wordCount
spark入门1-运行wordCount一、spark入门1、在idea中运行1.1 注意2、在Linux系统中运行2.1 用spark-shell运行2.2 用spark-submit运行3、在Spark自带的集群上运行3.1 配置集群的历史服务器3.2 注意4、在yarn上运行(重点)4.1 打通spark和yarn的历史服务器二、补充1.本文常用命令(方便粘贴)1.1 spark-submit2.端口 一、spark入门 1、在idea中运行 先创建maven工程,pom文件导入下面的插件 <原创 2020-11-30 23:07:06 · 837 阅读 · 0 评论