【Spark】积累与发现

本文详细探讨了Spark的环境搭建、基本概念、任务执行框架,包括SparkShell、SparkConf、RDD、Spark SQL、ML等。重点解析了RDD的IO与transform操作,以及Spark SQL中的聚合和join。此外,还涵盖了广播变量、性能优化、Spark UI、YARN以及异常处理等方面,提供了一整套Spark学习与实践的全面指南。
摘要由CSDN通过智能技术生成

环境搭建

在Hadoop集群的基础上搭建Spark
Spark记录-spark-env.sh配置

env里要写JAVA_HOME哦!

spark+hadoop配置

Spark和hadoop是怎么连起来的,就全靠SPARK_DIST_CLASSPATH这个参数连起来的,一旦这个参数确定了,并且hadoop配置正常,那么Spark默认读取hdfs上的文件,并且如果没有启动hdfs,spark-shell的一些操作也有可能报错,即使读的是本地的文件= =
如果没有指定该参数,那么默认读取本地文件
所以说如果仅仅学spark,那就老老实实的单个spark,不用配hadoop
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native/,指定hadoop依赖包,可以少个warn

Spark部分:几个重要的端口汇总

基本概念

从源码角度看Spark on yarn client & cluster模式的本质区别
SparkContext、SparkConf和SparkSession之间的联系及其初始化
sparkSession需要定义在sparkcontext之后

任务执行框架

spark task、job、partition之间的关系 宽窄依赖 spark任务调度
Spark中Task,Partition,RDD的关系
Spark中 sortByKey被划分到transformation中,却有action操作原因
Spark Shuffle 详解
理解spark中的job、stage、task
reduce分job,shuffle分task,task之间并行
Transformations

Task not serializable: java.io.NotSerializableException when calling function outside closure only on classes not objects
Serialization Exception on spark

spark-shell

spark-shell 参数

spark-conf

spark.sql.shuffle.partitions 和 spark.default.parallelism 的区别

RDD

RDD
在RDD的设计中,数据只读,不可修改,如果需要修改数据,必须从父RDD转换到子RDD,

Spark 创建RDD、DataFrame各种情况的默认分区数

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值