Abstract
主要涉及到SplitText processor的设置,将一个text文件内容划分为多个flowfile。
主要参数介绍
Name | Default Value | Allowable Values | Description |
Line Split Count | 设置拆分的行数,例如为1,则是每一行作为一个单独的拆分后的文件 | ||
Maximum Fragment Size | 每个拆分后的文件的所允许的最大的大小,header line包括在内。如果一个文件包含该header line,那么拆分后的每一个文件都会包含该header line | ||
Maximum Fragment Size | 每个拆分后的文件的所允许的最大的大小,header line包括在内。如果一个文件包含该header line,那么拆分后的每一个文件都会包含该header line | ||
Header Line Count | 0 | head line所占用的行数 | |
Header Line Marker Characters | 0 | 在整个文件中,标志header line的开始字符,如果Header line Count 设置为0,则该属性被忽略 | |
Remove Trailing Newlines | true | true;false | 设置是否删掉每个拆分后的文件末尾的换行符。如果拆分后的文件以后会进行merge操作,那么应设置为false;否则会产生一个内容为null的flow,这是在没有header line的情况下,那么这个空的flowfile将会被丢弃。如果原始的文件中包含header line,那么将不会产生内容为空的flowfile |
在这里设置line split count为1,也就是原始文件中的每一行都将成为一个新文件的内容
Troubleshooting(转自https://www.batchiq.com/database-extract-with-nifi.html 的Troubleshooting部分)
在nifi中可以通过Logging的方式帮助我们了解Processor的执行过程。需要在 nifi根目录下的conf/logback.xml中进行配置
…
通过这样配置,QueryDatabase和ExecuteSQL就可以将他们一些执行信息给Debug logger
2016-09-12 16:07:14,909 DEBUG [Timer-Driven Process Thread-2] o.a.n.p.standard.QueryDatabaseTable QueryDatabaseTable[id=2d63a256-6502-4735-a362-8ec6b9b81fc8]
Executing query SELECT id, uuid, created_at, screen_name, location, text FROM tweets WHERE id > 24780