Q:
如题三者都可以进行数据清洗,区别是什么?各自使用场景是什么?
A:
Spark处理任务比MR快,但是对内存消耗是很大的。
多数场景优先考虑hive进行数据清洗,少部分会单独编写MR或者Spark程序进行复杂处理。
Spark自然适合实时数据处理,例如公司现在放贷业务需要30s放款或拒绝,spark是最合适的。
如果不要求实时处理,只是单纯数据量大,MR则是合适的选择。
现在在做的特征提取,也可以广义理解成数据清洗,公司订单量不大,时间要求不高,用python脚本处理也是可以的。