文本文件输入步骤

从文本文件中获得数据,常见的文本文件包括csv txt、文件等。用户要在该步骤指定文件名、文件内容、错误处理方式、过滤器、字段等项目。

参数说明:

l
指定文件名的三种方式

1.
指定一个具体的文件名。
2.
指定一个正则表达式,来匹配一个目录下的文件。
3.
将其它步骤的运行结果作为文件名。

l
文件内容设置
分隔符:指定字段之间的分隔符号
文本限定符:指定一个字符串左右的限定符号,有限定符的字符串里可以使用分隔符。有限定符的字符串内部如果要使用限定符,要将限定符加倍。
转义符:指定文本中的转义符号,用来将其后的字符转义。
页眉:指定页眉的行数,页眉行不作为数据行处理。
页脚:指定页脚的行数,页脚行不作为数据行处理。
回卷:说明一个数据行是否被回卷为多行。

l
错误处理设置
忽略错误:是否忽略解析过程中产生的错误。
跳过错误行:是否跳过发生错误的行。如果不跳过,那么发生错误的字段值会被置为空。
记录错误数的输出字段:指定一个输出字段用来记录解析错误的字段的个数。
记录错误描述的输出字段:指定一个输出字段用来记录发生错误的所有字段的名字。
记录错误字段名的输出字段:指定一个输出字段用来记录错误的描述信息。
警告文件目录:当发生警告时,警告将保存在这个指定的目录下。
错误文件目录:当发生警告时,警告将保存在这个指定的目录下。
失败行数文件目录:当读取行失败时,读取失败的行号将保存在这个指定的目录下。

l
过滤器
过滤器:用来过滤输入行,符合过滤器条件的输入行将被忽略掉。
过滤字符串:用来去匹配输入数据的字符串(不支持正则表达式)
过滤开始位置:指定字符串里开始匹配的位置,负数或0表示从第一个字符开始匹配。
停止处理:当遇到了匹配的字符串时,是否停止处理

l
字段
设定字段名称和数据类型

 

阅读更多
文章标签: 正则表达式 csv
个人分类: kettle
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭