NiFi的使用
ConvertCSVToAvro
- 主要功能
可以将CSV格式的数据转换为avro序列化格式。并不局限于CSV格式,txt文档的格式整齐也可以使用。
转换后可将数据有选择的导入到数据库,hive中。 - 主要参数配置
Hadoop configuration Resources
:为core-site.xml和hdfs-site.xml的地址(绝对地址就行)。Record schema
:这里不和其他相关联(如inferAvroSchema
,以后可能会写)。这个配置需要与CSV的列对齐。如CSV有3列,id、name、sex。则参数fields下必须有3行,且类型按顺序对应,name后的列名可以自定义。如下:
{ "type":"record", "name":"test", "fields" : [ {"name": "a","type": "int"}, {"name": "b","type": "string"}, {"name": "c","type": "string"} ] }
CSV delimiter
:分隔符,一般CSV为逗号,这个与数据中的分