1. dataframe和rdd的区别
可以将dataframe理解成是RDD+schema元信息
两个分别的优点和缺点:
2. dataset的优点
3.dataframe,dataset,和RDD的区别
4. 之间的相互转化:
5.堆外内存和堆内内存的定义和区别,各自的优势
堆外操作系统的IO, 堆内内存建立再JVM上(会长生GC)
6,spark on hive和hive on spark的区别
7. hive和spark的整合
8.thrith server ?????
9.UDF(一对一),UDAF(多对一),UDTF(一对)的使用
可以作为函数,也可以注册之后作为sql中的函数
seesion.udf.regist
10,spark sql的执行过程