使用spark,如图:启动spark-shell,使用spark的filter算子过滤出自己想要的数据,和源数据进行对比。
在我实际工作中,遇到最后一个值90%都是0.0(这个值同时也是MR程序清洗的默认值),但是存在数据是1的情况。,如何过滤看到其他值从而判断数据清洗的正确性。
使用spark,如图:启动spark-shell,使用spark的filter算子过滤出自己想要的数据,和源数据进行对比。
在我实际工作中,遇到最后一个值90%都是0.0(这个值同时也是MR程序清洗的默认值),但是存在数据是1的情况。,如何过滤看到其他值从而判断数据清洗的正确性。