总结:
- Spark 中 map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象;
- 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”:
使用map对表格数据进行变换常用方法
地区代码 | 地区名称 | 所属城市 | 所属省份 |
1000 | 北京市 | 1000 | 1000 |
1027 | 密云县 | 1000 | 1000 |
1028 | 延庆县 | 1000 | 1000 |
1100 | 天津市 | 1100 | 1100 |
1121 | 宁河县 | 1100 | 1100 |
1123 | 静海县 | 1100 | 1100 |
1125 | 蓟 县 | 1100 | 1100 |
1200 | 河北省 | 1200 | 1200 |
1210 | 石家庄市 | 1210 | 1200 |
1211 | 井陉县 | 1210 | 1200 |
1212 | 鹿泉市 | 1210 | 1200 |
1213 | 正定县 | 1210 | 1200 |
1214 | 栾城县 | 1210 | 1200 |
map(func):对调用map的RDD数据集中的每个element都使用func,然后返回一个新的RDD,这里是一个
(地区名称,所属城市) |
(北京市,1000)
(天津市,1100)
(河北省,1200)
(石家庄市,1210)
(唐山市,1240)