1、为什么推荐用scala
①性能开销小
②最新版本和最好性能
③有助于更了解spark
scala可以在同一个环境中完成所有数据处理和分析,不用考虑数据本身在何处存放和在何处处理。
2、spark编程模型
在输入数据集上定义一组转换
调用action(存储)
运行本地计算(执行)
3、记录关联问题
1、为什么推荐用scala
①性能开销小
②最新版本和最好性能
③有助于更了解spark
scala可以在同一个环境中完成所有数据处理和分析,不用考虑数据本身在何处存放和在何处处理。
2、spark编程模型
在输入数据集上定义一组转换
调用action(存储)
运行本地计算(执行)
3、记录关联问题