dataX hdfsWrite 二次开发写入parquet文件功能
背景
目前,dataX的hdfsWrite只支持TEXT以及ORC两种文件格式的写入,但是在查询性能上Parquet要优于前两者,并且spark默认的写入格式也是Parquet。所以需要在hdfsWrite的基础上进行二次开发,新增写入Parquet文件的功能。
操作步骤:
1、将hdfswriter-0.0.1-SNAPSHOT.jar下载下来,替换到$datax_HOME/plugin/writer/hdfswriter目录下
2、将libs目录下的jar,替换到$datax_HOME/plugin/writer/hdfswriter/libs目录下(主要是新增了parquet相关的jar)
3、使用方法 fileType:par (par可以通过代码修改)
4、只支持SNAPPY压缩,同orc一样使用
5、其他参数和阿里官方要求的一致即可
使用样例:
{
"job": {
"setting": {
"speed": {
"channel": 3
},
"errorLimit": {
"record": 0,
"percentage": 0.02
}
},
"content": [
{
"reader": {
"name": "mysqlreader",
"parameter": {
"writeMode": "insert",
"username": "root",
"