1 强类型集合
2 对象可以做函数操作或者关系型操作
3 DataFrame是Row类型的Dataset,即Dataset[Row]
4 转化操作生成新的Dataset,行动操作执行计算并生成结果,是lazy的,只有行动操作才会触发计算
5 Spark Catalyst Optimizer优化计算,将logical plan以并行,分布式的方式优化为optimized physical plan,在Spark SQL Engine上执行,使用explain(true)展开查看execution plan
6 使用Encoder类将对象映射到Spark internal type system,在runtime将对象序列化为binary structure,做内存优化和数据处理优化