Hadoop File Output 使用和问题解决

请注意:这份文件适用于PATAHO 7.1和更早的版本。对于PANAHO 8和以后,请参阅PadaHoeEnterprise Enterprise文档站点上的Hadoop文件输出。

描述

Hadoop文件输出步骤用于将数据导出到存储在Hadoop集群上的文本文件。这通常用于生成可由电子表格应用程序读取的逗号分隔值(CSV文件)。还可以通过在字段选项卡中设置字段长度来生成固定宽度的文件。

这些表描述了所有可用的Hadoop文件输出选项。

“文件”选项卡下的选项是定义正在创建的文件的基本属性的地方。

步骤名称

可选地,您可以更改此步骤的名称以满足您的需要。转换中的每一步都必须有唯一的名称。

Hadoop聚类

允许您创建、编辑和选择Hadoop集群配置供使用。Hadoop群集配置设置可以在支持此特性的转换步骤和作业条目中重用。在Hadoop集群配置中,可以为HDFS、Job Tracker和其他大型数据集群组件指定主机名和端口等信息。编辑按钮允许您编辑Hadoop集群配置信息。新按钮允许您添加一个新的Hadoop集群配置。Hadoop集群的信息可以在PunaHO帮助中找到。

文件夹/文件:

指定要写入的文本文件的位置和/或名称。单击“浏览”启动打开的文件窗口并导航到文件或文件夹。

创建父文件夹:

表明是否有父文件夹should be created for the file when it is copied。

不要在开始时创建文件:

当没有处理行时,可以避免空文件。

从字段接受文件名吗?

使您能够在输入流中指定字段的文件名。

文件名字段:

当启用前一个选项时,可以在运行时指定包含文件名的字段。

延伸:

在文件名(.txt)的末尾添加一个点和扩展名。

在文件名中包含STESTNR:

如果在多个副本中运行该步骤(启动步骤的几个副本),则复制号包含在扩展名之前的文件名中。(0)。

在文件名中包含分区NR?

包含文件名中的数据分区号

在文件名中包含日期:

包括文件名中的系统日期(20101231)

在文件名中包含时间:

包括文件名中的系统时间(Y.355959)

指定日期时间格式:

允许您从日期时间格式下拉列表中的列表中指定日期时间格式。

日期时间格式:

日期格式选项的下拉列表。

显示文件名(s):

显示生成的文件的列表。这是一个模拟,取决于每个文件行的行数。

将文件名添加到结果:

这将文件名添加到内部文件结果集。

 

从文件夹打开:

指示要浏览的目录的路径和名称。此目录成为ActiveDirectory。

上升一级

显示从文件夹字段中打开的Active Directory的父目录。

删除

从ActiveDirectory中删除文件夹。

创建文件夹

在ActiveDirectory中创建一个新文件夹。

名字

显示ActiveDirectory,它是从文件夹字段中打开的列表。

滤波器

对ActiveDirectory内容中显示的结果应用筛选器。

内容选项卡
内容选项卡包含用于描述正在读取的内容的这些选项。
追加

允许将行追加到指定文件的末尾。
分离器

指定在一行文本中分隔字段的字符。通常,这是分号(;)或选项卡。
圈地

一对字符串可以包含一些字段。这允许字段中的分隔符。外壳字符串是可选的。如果您希望文本文件具有头行(文件中的第一行),请启用。


把围栏围在地上?

强制所有字段名称与上述外壳属性中指定的字符一起封闭。
页眉

如果希望文本文件具有头行(文件中的第一行),请启用此选项

页脚

如果希望文本文件具有页脚行(文件中的最后一行),请启用此选项

格式

可以是DOS或UNIX;UNIX文件的行由换行符分隔,DOS文件的行由回车符和换行符分隔

编码

指定要使用的文本文件编码。留空以在系统上使用默认编码。若要使用Unicode,请指定UTF-8或UTF-16。在第一次使用时,勺子在系统中搜索可用的编码。

压缩

指定压缩输出时使用的压缩类型.zip或.gzip。在一个存档文件中只放置一个文件。

快速数据转储(无格式)

通过不包括任何格式信息来将大量数据倾倒到文本文件时,提高了性能。

分割每一个…排

如果数字n大于零,将所得文本文件分割成N行的多个部分。

添加文件结束行

允许您为输出文件指定另一个结束行。

字段标签
字段选项卡是为正在导出的字段定义属性的地方。下表描述了配置字段属性的每个选项:

名字

字段名称

类型

字段的类型可以是字符串、日期或数字。

格式

要转换的格式掩码。有关格式符号的完整描述,请参阅数字格式。

长度

长度选项取决于以下字段类型:

数字中有效数字的总数

字符串-字符串的总长

字符串打印输出的日期长度(例如,4返回年)

精密度

精度选项取决于字段类型如下:

浮点数字数

未使用的字符串

未使用日期


货币

用于表示货币的符号,例如10000美元或E5.000,00。

十进制的

小数点可以是“。”(10000)或“,”(5.000,00)。

一个分组可以是“,”(10000)或“。”(5.000,00)。

修整型

在没有给定字段长度的情况下,在字符串修整中应用的修剪方法。

无效的

如果字段的值为NULL,则将该字符串插入文本文件中。

得到

单击此处可从输入字段流中检索字段列表

最小宽度

在字段选项卡中更改选项,使文本文件中的行宽度最小。因此,而不是保存000000 1,你写1,等等。字符串字段将不再填充到指定长度。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值