1. RDD
1.1 RDD的定义
RDD:resilient distributed dataset 弹性分布式数据集
- dataset:数据封装到集合中
- distributed:分布式存储数据
- resilient:数据优先存储在内存中,如果内存空间不足,再溢写到磁盘中
1.2 RDD的特点
- 分布式存储:数据分区
- 内存优先:内存 > 磁盘
- 数据可靠性:血统机制
2 编程细节
2.2 编程规范
- 类名:大写字母开头
- 字段名/成员名:小写字母开头
2.3 快捷键
- 格式化代码:ctrl+alt+L
- 自动补齐代码:ctrl+J
- 注释代码:ctrl+/
2.1 构建工程步骤
- 新建空项目(New-Project)