请注意:这份文件适用于PATAHO 7.1和更早的版本。对于PANAHO 8和以后,请参阅PadaHoeEnterprise Enterprise文档站点上的Hadoop文件输出。
描述
Hadoop文件输出步骤用于将数据导出到存储在Hadoop集群上的文本文件。这通常用于生成可由电子表格应用程序读取的逗号分隔值(CSV文件)。还可以通过在字段选项卡中设置字段长度来生成固定宽度的文件。
这些表描述了所有可用的Hadoop文件输出选项。
“文件”选项卡下的选项是定义正在创建的文件的基本属性的地方。
步骤名称
可选地,您可以更改此步骤的名称以满足您的需要。转换中的每一步都必须有唯一的名称。
Hadoop聚类
允许您创建、编辑和选择Hadoop集群配置供使用。Hadoop群集配置设置可以在支持此特性的转换步骤和作业条目中重用。在Hadoop集群配置中,可以为HDFS、Job Tracker和其他大型数据集群组件指定主机名和端口等信息。编辑按钮允许您编辑Hadoop集群配置信息。新按钮允许您添加一个新的Hadoop集群配置。Hadoop集群的信息可以在PunaHO帮助中找到。
文件夹/文件:
指定要写入的文本文件的位置和/或名称。单击“浏览”启动打开的文件窗口并导航到文件或文件夹。
创建父文件夹:
表明是否有父文件夹should be created for the file when it is copied。
不要在开始时创建文件:
当没有处理行时,可以避免空文件。
从字段接受文件名吗?
使您能够在输入流中指定字段的文件名。
文件名字段:
当启用前一个选项时,可以在运行时指定包含文件名的字段。
延伸:
在文件名(.txt)的末尾添加一个点和扩展名。
在文件名中包含STESTNR:
如果在多个副本中运行该步骤(启动步骤的几个副本),则复制号包含在扩展名之前的文件名中。(0)。
在文件名中包含分区NR?
包含文件名中的数据分区号
在文件名中包含日期:
包括文件名中的系统日期(20101231)
在文件名中包含时间:
包括文件名中的系统时间(Y.355959)
指定日期时间格式:
允许您从日期时间格式下拉列表中的列表中指定日期时间格式。
日期时间格式:
日期格式选项的下拉列表。
显示文件名(s):
显示生成的文件的列表。这是一个模拟,取决于每个文件行的行数。
将文件名添加到结果:
这将文件名添加到内部文件结果集。
从文件夹打开:
指示要浏览的目录的路径和名称。此目录成为ActiveDirectory。
上升一级
显示从文件夹字段中打开的Active Directory的父目录。
删除
从ActiveDirectory中删除文件夹。
创建文件夹
在ActiveDirectory中创建一个新文件夹。
名字
显示ActiveDirectory,它是从文件夹字段中打开的列表。
滤波器
对ActiveDirectory内容中显示的结果应用筛选器。
内容选项卡
内容选项卡包含用于描述正在读取的内容的这些选项。
追加
允许将行追加到指定文件的末尾。
分离器
指定在一行文本中分隔字段的字符。通常,这是分号(;)或选项卡。
圈地
一对字符串可以包含一些字段。这允许字段中的分隔符。外壳字符串是可选的。如果您希望文本文件具有头行(文件中的第一行),请启用。
把围栏围在地上?
强制所有字段名称与上述外壳属性中指定的字符一起封闭。
页眉
如果希望文本文件具有头行(文件中的第一行),请启用此选项
页脚
如果希望文本文件具有页脚行(文件中的最后一行),请启用此选项
格式
可以是DOS或UNIX;UNIX文件的行由换行符分隔,DOS文件的行由回车符和换行符分隔
编码
指定要使用的文本文件编码。留空以在系统上使用默认编码。若要使用Unicode,请指定UTF-8或UTF-16。在第一次使用时,勺子在系统中搜索可用的编码。
压缩
指定压缩输出时使用的压缩类型.zip或.gzip。在一个存档文件中只放置一个文件。
快速数据转储(无格式)
通过不包括任何格式信息来将大量数据倾倒到文本文件时,提高了性能。
分割每一个…排
如果数字n大于零,将所得文本文件分割成N行的多个部分。
添加文件结束行
允许您为输出文件指定另一个结束行。
字段标签
字段选项卡是为正在导出的字段定义属性的地方。下表描述了配置字段属性的每个选项:
名字
字段名称
类型
字段的类型可以是字符串、日期或数字。
格式
要转换的格式掩码。有关格式符号的完整描述,请参阅数字格式。
长度
长度选项取决于以下字段类型:
数字中有效数字的总数
字符串-字符串的总长
字符串打印输出的日期长度(例如,4返回年)
精密度
精度选项取决于字段类型如下:
浮点数字数
未使用的字符串
未使用日期
货币
用于表示货币的符号,例如10000美元或E5.000,00。
十进制的
小数点可以是“。”(10000)或“,”(5.000,00)。
组
一个分组可以是“,”(10000)或“。”(5.000,00)。
修整型
在没有给定字段长度的情况下,在字符串修整中应用的修剪方法。
无效的
如果字段的值为NULL,则将该字符串插入文本文件中。
得到
单击此处可从输入字段流中检索字段列表
最小宽度
在字段选项卡中更改选项,使文本文件中的行宽度最小。因此,而不是保存000000 1,你写1,等等。字符串字段将不再填充到指定长度。