SparkSQL01
1、sparksql和sparkcore cache策略的区别
DataSet默认缓存策略:MEMORY_AND_DISK
绿在:InMemoryTableScan
sparksql cache 是eager的,sparkcore是lazy的
sparksql uncache是eager的,sparkcore是eager的
语法 cache table tablename
uncache table tablename
spark.table("tablename").cache 是lazy的
val df = spark.sql("select * from emp")
df.cache() // lazy
df.show() // 这才在storage里有效
2、从1.5,cache变成一个eager的算子
3、dataframe1.3版本出来的,dataset是1.6版本出来的
SparkSQL03
1、外部数据源API从哪个版本提出?
1.2
2、hadoop和aws做兼容,哪个版本开始的?
3、2.X之前,入口点是sqlContext、HiveContext,2.X后合并到SparkSession
3、spark.read.format 实现原理。加分点