有很多同学跟我反映 博客里的很多图都没了,真的很抱歉;
目前CSDN这里的博客不会再维护了,关于NIFI的文章会陆续在
以及公众号更新
从一个HDFS目录中检索文件列表;
配置:
Hadoop Configuration Resources:被扫描HDFS的 hdfs-site.xml,core-site.xml(copy到nifi环境中)
Kerberos Credentials Service:KeytabCredentialsService
Kerberos Principal:Kerberos主体进行身份验证。需要在ni .properties中设置ni .kerberos.krb5.file
Kerberos Keytab:与主体关联的Kerberos keytab。需要在ni .properties中设置ni .kerberos.krb5.file
Kerberos Relogin Period:此属性已被弃用(1.8)
Additional Classpath Resources:
Distributed Cache Service:指定控制器服务,该服务应用于维护关于从HDFS中提取的内容的状态,以便如果新节点开始提取数据,它不会重复已完成的所有工作。CouchbaseMapCacheClient HBase_1_1_2_ClientMapCacheService RedisDistributedMapCacheClientService DistributedMapCacheClientService
Directory:被扫描的目录
Recurse Subdirectories:是否列出子目录中文件列表 默认true
File Filter:名称与给定正则表达式匹配的文件才会被获取
File Filter Mode:确定检索清单时如何使用文件筛选器中的正则表达式。
Directories and Files:用的最多,匹配目录名和文件名
Files Only:只匹配文件名
Full Path:匹配全路径
Minimum File Age:要提取文件所必须的最小时间量;小于此时间量的任何文件(基于上次修改日期)都将被忽略。
Maximum File Age:文件必须被拖出的最大时间量;任何超过此时间量(基于上次修改日期)的文件都将被忽略。最小值为100ms。