个人理解就是筛选出需要的结果
例:文件内容 ,需求:将包含zks的行的内容给找出来
aa bb cc aa aa aa dd dd ee ee ee ee
ff aa bb zks
ee kks
ee zz zks
代码示例
String path="E:\\txtFile2\\sample.txt";
JavaRDD<String> stringJavaRDD = javaSparkContext.textFile(path);
JavaRDD<String> zks = stringJavaRDD.filter(new Function<String, Boolean>() {
@Override
public Boolean call(String s) throws Exception {
//return s.indexOf("zks") > -1;
//或
return s.contains("zks");
}
});
System.out.println(zks.collect());
返回的结果
ff aa bb zks
ee zz zks