【第五章:Sentosa_DSML社区版-数据写出】

目录

5.1文件输出

5.2数据库输出

5.3 Excel输出

5.4 XML输出


【第五章:Sentosa_DSML社区版-数据写出】

        Sentosa_DSML社区版-数据写出:数据写出类算子作为算子流数据输出节点,将数据写入到文件或不同的数据库中,支持文本文件、 Excel 、流数据和多种数据库数据的读入。

5.1文件输出

1.算子介绍

        文件输出算子(FileWriterNode)支持将结果数据写入到HDFS和本地文件系统。如果算子平台是以YARN集群启动,则只支持写入到HDFS;如果算子平台以LOCAL模式启动,则只支持写入到服务启动的机器本地文件系统。支持的文件格式共六种:csv、text、json、parquet、libsvm、orc。

2.算子类型

        数据写出算子

3.算子属性说明

        1)文件格式为csv时,输入参数说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

format

文件格式

必填

String

csv

单选:csv,json,text,parquet,libsvm,orc

设置文件格式

path

文件路径

必填

String

设置文件路径

is_single

是否保存为多个文件

必填

Boolean

单选:是,否

是否保存为单个文件

compression

压缩编解码器

必填

String

none

单选: none, bzip2, gzip, deflate

设置压缩编解码器

sep

分隔符设置

必填

String

逗号

单选:逗号,分号,制表符,空格,其他

设置文件分隔符

header

是否保存列名

必填

Boolean

单选:是,否

是否保存列名

ignore_leading_white_space

是否跳过正在读取数据的前导空格

必填

Boolean

单选:是,否

设置是否跳过正在读取数据的前导空格

ignore_trailing_white_space

是否跳过正在读取数据的尾随空格

必填

Boolean

单选:是,否

设置是否跳过正在读取数据的尾随空格

encoding

设置csv文件的编码格式

必填

String

UTF-8

单选:UTF-8,GBK

设置编码格式

mode

文件输出模式

必填

String

ErrorIfExists

单选:Overwrite,Append,Ignore,ErrorIfExist

设置文件输出模式

        2)文件格式为json时,输入参数说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

format

文件格式

必填

String

csv

单选:csv,json,text,parquet,libsvm,orc

设置文件格式

path

文件路径

必填

String

设置文件路径

is_single

是否保存为多个文件

必填

Boolean

单选:是,否

是否保存为单个文件

compression

压缩编解码器

必填

String

none

单选: none, bzip2, gzip, deflate

设置压缩编解码器

encoding

编码格式

必填

String

UTF-8

单选:UTF-8,GBK

设置编码格式

mode

文件输出模式

必填

String

ErrorIfExists

单选:Overwrite,Append,Ignore,ErrorIfExist

设置文件输出模式

        3)文件格式为text或libsvm时,输入参数说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

format

文件格式

必填

String

csv

单选:csv,json,text,parquet,libsvm,orc

设置文件格式

path

文件路径

必填

String

设置文件路径

is_single

是否保存为多个文件

必填

Boolean

单选:是,否

是否保存为单个文件

compression

压缩编解码器

必填

String

none

单选: none, bzip2, gzip, deflate

设置压缩编解码器

mode

文件输出模式

必填

String

ErrorIfExists

单选:Overwrite,Append,Ignore,ErrorIfExist

设置文件输出模式

        4)文件格式为parquet或ocr时,输入参数说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

format

文件格式

必填

String

csv

单选:csv,json,text,parquet,libsvm,orc

设置文件格式

path

文件路径

必填

String

设置文件路径

compression

压缩编解码器

必填

String

none

单选: none, bzip2, gzip, deflate

设置压缩编解码器

mode

文件输出模式

必填

String

ErrorIfExists

单选:Overwrite,Append,Ignore,ErrorIfExist

设置文件输出模式

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

        当选择csv格式时:

文件输出算子选择csv格式

        当选择json格式时:

文件输出算子选择json格式

        当选择text、libsvm格式时:

文件输出算子选择text或libsvm格式

        当选择parquet、orc格式时:

文件输出算子选择parquet或orc格式

(3)算子的运行

        1)结果不可预览,执行成功提示

文件输出算子执行结果

        2)可接算子类型说明

        该算子前可任意接数据读入算子,数据处理算子(例,行处理,列处理等),以本算子结尾构成算子流执行。

5.2数据库输出

1.算子介绍

        数据库输出算子(JDBCOutputNode)支持将结果数据写入到JDBC兼容的关系数据库。目前oracle仅支持18及以下版本

2.算子类型

        数据写出算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

database_source

数据源类型

必填

String

默认(mysql)

单选:mysql,sqlserver,db2,oracle

指定数据源类型

url

JDBC数据库url的形式

必填

String

默认(无)

指定读取数据库的URL

mysql_port

端口

必填

Integer

默认(3306)

指定读取mysql数据库的端口号

sqlserver_port

端口

必填

Integer

默认(1433)

指定读取sqlserver数据库的端口号

db2_port

端口

必填

Integer

默认(50000)

指定读取db2数据库的端口号

oracle_port

端口

必填

Integer

默认(1521)

指定读取oracle数据库的端口号

database_name

数据库名

必填

String

默认(无)

database_source=mysql,sqlserver,db2

读取的库名

table

表名

必填

String

默认(无)

读取的表名

user

用户名

必填

String

默认(无)

数据库用户名

password

密码

必填

String

默认(无)

数据库密码

schema

Schema

必填

String

默认(无)

database_source=db2

Db2数据库的schema

sid

Oracle系统识别号

必填

String

默认(无)

database_source=oracle

Oracle系统识别号

mode

输出模式

必填

String

Append

单选: Append,Ignore,Overwrite

输出模式

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作

(2)算子属性设置

数据库写出

(3)算子的运行

        1)可预览输出效果

        操作参考公共操作。

        2)可接算子类型说明

        该算子可接数据读入算子,数据处理算子(例,行处理,列处理等),算子流运行参考公共操作。

5.3 Excel输出

1.算子介绍

        Excel输出算子(ExcelOutputNode) 支持将结果数据写入到HDFS和本地文件系统。如果Sentosa_DSML社区版是以YARN集群启动,则只支持写入到HDFS;如果Sentosa_DSML社区版以LOCAL模式启动,则只支持写入到服务启动的机器本地文件系统。支持的文件格式为xlsx。

2.算子类型

        Excel输出算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

path

存储路径

必填

String

后缀必须xlsx

设置文件存储路径

node_excel_sheet_name

设置Sheet名称

必填

String

设置需要写入的Excel的Sheet名

use_header

将列名写入第一行

必填

Boolean

单选:是,否

是否将列名写入第一行

mode

写入模式

必填

String

Overwrite

单选:Overwrite,Append, ErrorIfExist

设置写入模式

Overwitre表示将原本存在的文件覆盖并写入;Append表示如果存在指定Sheet页,将结果追加到指定sheet页,如果不存在,则创建Sheet页;ErrorIfExists表示如果文件存在,则抛错。

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作

(2)算子属性设置

Excel输出算子配置

(3)算子的运行

        1)不可预览,执行成功提示

Excel输出测试

        2)可接算子类型说明

        该算子前可任意接数据读入算子,数据处理算子(例,行处理,列处理等),以本算子结尾构成算子流执行。

5.4 XML输出

​​​​​​​1.算子介绍

        XML输出算子(XMLOutputNode) 支持将结果数据以xml形式写入到HDFS和本地文件系统。

​​​​​​​2.算子类型

        数据写出算子

​​​​​​​3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

path

文件路径

必填

String

设置文件存储路径

rowTag

提取行标签

必填

String

设置xml行标签

rootTag

根标签

必填

String

设置xml跟标签

compression

压缩编解码器

必填

String

" none"

单选:none,bzip2,gzip,lz4,snappy

设置压缩编解码器

mode

文件输出模式

必填

String

" ErrorIfExists "

单选:Overwrite, ErrorIfExist

设置写入模式

Overwitre表示将原本存在的文件覆盖并写入;ErrorIfExists表示如果文件存在,则抛错。

​​​​​​​4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作

(2)算子属性设置

XML输出算子配置

(3)算子的运行

        1)不可预览,执行成功提示

XML输出测试

        2)可接算子类型说明

        该算子前可任意接数据读入算子,数据处理算子(例,行处理,列处理等),以本算子结尾构成算子流执行。


        为了非商业用途的科研学者、研究人员及开发者提供学习、交流及实践机器学习技术,推出了一款轻量化且完全免费的Sentosa_DSML社区版。以轻量化一键安装、平台免费使用、视频教学和社区论坛服务为主要特点,能够与其他数据科学家和机器学习爱好者交流心得,分享经验和解决问题。文章最后附上官网链接,感兴趣工具的可以直接下载使用

Sentosa_DSML社区版icon-default.png?t=O83Ahttps://sentosa.znv.com/​​​​​​​社区版官网下载地址:https://sentosa.znv.com/
B站地址:https://space.bilibili.com/3546633820179281
CSDN地址:https://blog.csdn.net/qq_45586013?spm=1000.2115.3001.5343
知乎地址:https://www.zhihu.com/people/kennethfeng-che/posts

Sentosa_DSML算子流开发视频

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值