1. 需求说明
生产环境中有些数据需要在抽取的时候指定对某个字段进行过滤,判断等等。以将本地文件抽取到HDFS为例,当前我们需要导入的数据有2条,如下:
上面的数据中有uname字段,我们希望增加一个新的字段sex,该字段的值判断如果uname是wangwu,则sex字段的值就为female,否则为male,效果如下:
实现上面的效果需要2步:
- 编写过滤器代码。
- 将过滤器代码写到datax.json中。
2. 编写过滤器代码
-
导入datax的依赖(这里主要是因为要写日志,另一个是打包功能的配置,根据自己需要来添加依赖)
<dependencies> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-simple</artifactId> <version>1.7.12</version> </dependency> </dependencies> <build> <finalName>gtmc-datax-utils-${project.version}