Spark_小练习_大数据量相邻数据合并
Spark面试题
个人练习,思路可能并不正确,请谨慎观看
现有如下数据文件需要处理
格式:CSV
位置:hdfs://myhdfs/input.csv
大小:100GB
字段:用户ID,位置ID,开始时间,停留时长(分钟)
4行样例:
UserA,LocationA,2018-01-01 08:00:00,60
UserA,LocationA,2018-01-01 09:00:00,60
UserA,LocationB,2018-01-01 10:00:00,60
UserA,LocationA,2018-
原创
2020-10-27 16:05:26 ·
783 阅读 ·
0 评论