nifi探索之SplitText

最新推荐文章于 2024-04-16 12:38:31 发布

快乐的小画家

最新推荐文章于 2024-04-16 12:38:31 发布

阅读量2.6k

点赞数

文章标签： SplitText nifi Processor

本文链接：https://blog.csdn.net/qinqinyijia/article/details/77895349

版权

Abstract

主要涉及到SplitText processor的设置，将一个text文件内容划分为多个flowfile。

主要参数介绍

Name	Default Value	Allowable Values	Description
Line Split Count			设置拆分的行数，例如为1，则是每一行作为一个单独的拆分后的文件
Maximum Fragment Size			每个拆分后的文件的所允许的最大的大小，header line包括在内。如果一个文件包含该header line，那么拆分后的每一个文件都会包含该header line
Maximum Fragment Size			每个拆分后的文件的所允许的最大的大小，header line包括在内。如果一个文件包含该header line，那么拆分后的每一个文件都会包含该header line
Header Line Count	0		head line所占用的行数
Header Line Marker Characters	0		在整个文件中，标志header line的开始字符，如果Header line Count 设置为0，则该属性被忽略
Remove Trailing Newlines	true	true；false	设置是否删掉每个拆分后的文件末尾的换行符。如果拆分后的文件以后会进行merge操作，那么应设置为false；否则会产生一个内容为null的flow，这是在没有header line的情况下，那么这个空的flowfile将会被丢弃。如果原始的文件中包含header line，那么将不会产生内容为空的flowfile

SplitText配置
在这里设置line split count为1，也就是原始文件中的每一行都将成为一个新文件的内容

Troubleshooting（转自https://www.batchiq.com/database-extract-with-nifi.html 的Troubleshooting部分）
在nifi中可以通过Logging的方式帮助我们了解Processor的执行过程。需要在 nifi根目录下的conf/logback.xml中进行配置

…

通过这样配置，QueryDatabase和ExecuteSQL就可以将他们一些执行信息给Debug logger

2016-09-12 16:07:14,909 DEBUG [Timer-Driven Process Thread-2] o.a.n.p.standard.QueryDatabaseTable QueryDatabaseTable[id=2d63a256-6502-4735-a362-8ec6b9b81fc8]
Executing query SELECT id, uuid, created_at, screen_name, location, text FROM tweets WHERE id > 24780