1. 自连接
假设存在如下文件:
[root@bluejoe0 ~]# cat categories.csv
1,生活用品,0
2,数码用品,1
3,手机,2
4,华为Mate7,3
每一行的格式为:类别ID,类别名称,父类ID
现在欲输出每个类别的父类别的名称,类似于SQL的自连接,注意到join的外键其实是父类ID。
首先生成“父类ID->子类ID,子类名称”
val categories=sc.textFile("/root/categories.csv")
val left = categories.map(_.split(<