目录
【第五章:Sentosa_DSML社区版-数据写出】
Sentosa_DSML社区版-数据写出:数据写出类算子作为算子流数据输出节点,将数据写入到文件或不同的数据库中,支持文本文件、 Excel 、流数据和多种数据库数据的读入。
5.1文件输出
1.算子介绍
文件输出算子(FileWriterNode)支持将结果数据写入到HDFS和本地文件系统。如果算子平台是以YARN集群启动,则只支持写入到HDFS;如果算子平台以LOCAL模式启动,则只支持写入到服务启动的机器本地文件系统。支持的文件格式共六种:csv、text、json、parquet、libsvm、orc。
2.算子类型
数据写出算子
3.算子属性说明
1)文件格式为csv时,输入参数说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
format | 文件格式 | 必填 | String | csv | 单选:csv,json,text,parquet,libsvm,orc | 设置文件格式 |
path | 文件路径 | 必填 | String | 无 | 设置文件路径 | |
is_single | 是否保存为多个文件 | 必填 | Boolean | 否 | 单选:是,否 | 是否保存为单个文件 |
compression | 压缩编解码器 | 必填 | String | none | 单选: none, bzip2, gzip, deflate | 设置压缩编解码器 |
sep | 分隔符设置 | 必填 | String | 逗号 | 单选:逗号,分号,制表符,空格,其他 | 设置文件分隔符 |
header | 是否保存列名 | 必填 | Boolean | 是 | 单选:是,否 | 是否保存列名 |
ignore_leading_white_space | 是否跳过正在读取数据的前导空格 | 必填 | Boolean | 是 | 单选:是,否 | 设置是否跳过正在读取数据的前导空格 |
ignore_trailing_white_space | 是否跳过正在读取数据的尾随空格 | 必填 | Boolean | 是 | 单选:是,否 | 设置是否跳过正在读取数据的尾随空格 |
encoding | 设置csv文件的编码格式 | 必填 | String | UTF-8 | 单选:UTF-8,GBK | 设置编码格式 |
mode | 文件输出模式 | 必填 | String | ErrorIfExists | 单选:Overwrite,Append,Ignore,ErrorIfExist | 设置文件输出模式 |
2)文件格式为json时,输入参数说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
format | 文件格式 | 必填 | String | csv | 单选:csv,json,text,parquet,libsvm,orc | 设置文件格式 |
path | 文件路径 | 必填 | String | 无 | 设置文件路径 | |
is_single | 是否保存为多个文件 | 必填 | Boolean | 否 | 单选:是,否 | 是否保存为单个文件 |
compression | 压缩编解码器 | 必填 | String | none | 单选: none, bzip2, gzip, deflate | 设置压缩编解码器 |
encoding | 编码格式 | 必填 | String | UTF-8 | 单选:UTF-8,GBK | 设置编码格式 |
mode | 文件输出模式 | 必填 | String | ErrorIfExists | 单选:Overwrite,Append,Ignore,ErrorIfExist | 设置文件输出模式 |
3)文件格式为text或libsvm时,输入参数说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
format | 文件格式 | 必填 | String | csv | 单选:csv,json,text,parquet,libsvm,orc | 设置文件格式 |
path | 文件路径 | 必填 | String | 无 | 设置文件路径 | |
is_single | 是否保存为多个文件 | 必填 | Boolean | 否 | 单选:是,否 | 是否保存为单个文件 |
compression | 压缩编解码器 | 必填 | String | none | 单选: none, bzip2, gzip, deflate | 设置压缩编解码器 |
mode | 文件输出模式 | 必填 | String | ErrorIfExists | 单选:Overwrite,Append,Ignore,ErrorIfExist | 设置文件输出模式 |
4)文件格式为parquet或ocr时,输入参数说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
format | 文件格式 | 必填 | String | csv | 单选:csv,json,text,parquet,libsvm,orc | 设置文件格式 |
path | 文件路径 | 必填 | String | 无 | 设置文件路径 | |
compression | 压缩编解码器 | 必填 | String | none | 单选: none, bzip2, gzip, deflate | 设置压缩编解码器 |
mode | 文件输出模式 | 必填 | String | ErrorIfExists | 单选:Overwrite,Append,Ignore,ErrorIfExist | 设置文件输出模式 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作。
(2)算子属性设置
当选择csv格式时:
文件输出算子选择csv格式
当选择json格式时:
文件输出算子选择json格式
当选择text、libsvm格式时:
文件输出算子选择text或libsvm格式
当选择parquet、orc格式时:
文件输出算子选择parquet或orc格式
(3)算子的运行
1)结果不可预览,执行成功提示
文件输出算子执行结果
2)可接算子类型说明
该算子前可任意接数据读入算子,数据处理算子(例,行处理,列处理等),以本算子结尾构成算子流执行。
5.2数据库输出
1.算子介绍
数据库输出算子(JDBCOutputNode)支持将结果数据写入到JDBC兼容的关系数据库。目前oracle仅支持18及以下版本
2.算子类型
数据写出算子
3.算子属性说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
database_source | 数据源类型 | 必填 | String | 默认(mysql) | 单选:mysql,sqlserver,db2,oracle | 指定数据源类型 |
url | JDBC数据库url的形式 | 必填 | String | 默认(无) | 指定读取数据库的URL | |
mysql_port | 端口 | 必填 | Integer | 默认(3306) | 指定读取mysql数据库的端口号 | |
sqlserver_port | 端口 | 必填 | Integer | 默认(1433) | 指定读取sqlserver数据库的端口号 | |
db2_port | 端口 | 必填 | Integer | 默认(50000) | 指定读取db2数据库的端口号 | |
oracle_port | 端口 | 必填 | Integer | 默认(1521) | 指定读取oracle数据库的端口号 | |
database_name | 数据库名 | 必填 | String | 默认(无) | database_source=mysql,sqlserver,db2 | 读取的库名 |
table | 表名 | 必填 | String | 默认(无) | 读取的表名 | |
user | 用户名 | 必填 | String | 默认(无) | 数据库用户名 | |
password | 密码 | 必填 | String | 默认(无) | 数据库密码 | |
schema | Schema | 必填 | String | 默认(无) | database_source=db2 | Db2数据库的schema |
sid | Oracle系统识别号 | 必填 | String | 默认(无) | database_source=oracle | Oracle系统识别号 |
mode | 输出模式 | 必填 | String | Append | 单选: Append,Ignore,Overwrite | 输出模式 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作
(2)算子属性设置
数据库写出
(3)算子的运行
1)可预览输出效果
操作参考公共操作。
2)可接算子类型说明
该算子可接数据读入算子,数据处理算子(例,行处理,列处理等),算子流运行参考公共操作。
5.3 Excel输出
1.算子介绍
Excel输出算子(ExcelOutputNode) 支持将结果数据写入到HDFS和本地文件系统。如果Sentosa_DSML社区版是以YARN集群启动,则只支持写入到HDFS;如果Sentosa_DSML社区版以LOCAL模式启动,则只支持写入到服务启动的机器本地文件系统。支持的文件格式为xlsx。
2.算子类型
Excel输出算子
3.算子属性说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
path | 存储路径 | 必填 | String | 无 | 后缀必须xlsx | 设置文件存储路径 |
node_excel_sheet_name | 设置Sheet名称 | 必填 | String | 无 | 设置需要写入的Excel的Sheet名 | |
use_header | 将列名写入第一行 | 必填 | Boolean | 是 | 单选:是,否 | 是否将列名写入第一行 |
mode | 写入模式 | 必填 | String | Overwrite | 单选:Overwrite,Append, ErrorIfExist | 设置写入模式 Overwitre表示将原本存在的文件覆盖并写入;Append表示如果存在指定Sheet页,将结果追加到指定sheet页,如果不存在,则创建Sheet页;ErrorIfExists表示如果文件存在,则抛错。 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作
(2)算子属性设置
Excel输出算子配置
(3)算子的运行
1)不可预览,执行成功提示
Excel输出测试
2)可接算子类型说明
该算子前可任意接数据读入算子,数据处理算子(例,行处理,列处理等),以本算子结尾构成算子流执行。
5.4 XML输出
1.算子介绍
XML输出算子(XMLOutputNode) 支持将结果数据以xml形式写入到HDFS和本地文件系统。
2.算子类型
数据写出算子
3.算子属性说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
path | 文件路径 | 必填 | String | 无 | 设置文件存储路径 | |
rowTag | 提取行标签 | 必填 | String | 无 | 设置xml行标签 | |
rootTag | 根标签 | 必填 | String | 无 | 设置xml跟标签 | |
compression | 压缩编解码器 | 必填 | String | " none" | 单选:none,bzip2,gzip,lz4,snappy | 设置压缩编解码器 |
mode | 文件输出模式 | 必填 | String | " ErrorIfExists " | 单选:Overwrite, ErrorIfExist | 设置写入模式 Overwitre表示将原本存在的文件覆盖并写入;ErrorIfExists表示如果文件存在,则抛错。 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作
(2)算子属性设置
XML输出算子配置
(3)算子的运行
1)不可预览,执行成功提示
XML输出测试
2)可接算子类型说明
该算子前可任意接数据读入算子,数据处理算子(例,行处理,列处理等),以本算子结尾构成算子流执行。
为了非商业用途的科研学者、研究人员及开发者提供学习、交流及实践机器学习技术,推出了一款轻量化且完全免费的Sentosa_DSML社区版。以轻量化一键安装、平台免费使用、视频教学和社区论坛服务为主要特点,能够与其他数据科学家和机器学习爱好者交流心得,分享经验和解决问题。文章最后附上官网链接,感兴趣工具的可以直接下载使用
Sentosa_DSML社区版https://sentosa.znv.com/社区版官网下载地址:https://sentosa.znv.com/
B站地址:https://space.bilibili.com/3546633820179281
CSDN地址:https://blog.csdn.net/qq_45586013?spm=1000.2115.3001.5343
知乎地址:https://www.zhihu.com/people/kennethfeng-che/posts
Sentosa_DSML算子流开发视频