【第八章:Sentosa_DSML社区版-数据融合】

目录

8.1 合并

8.2 追加


【第八章:Sentosa_DSML社区版-数据融合】

        Sentosa_DSML社区版-数据融合,数据融合算子作用是将多个表数据根据设定规则融合到一张表中。

8.1 合并

1.算子介绍

        合并算子(MergeNode)是将多个数据集按照共同的键合并成一个数据集,是在行维度上的融合,类似于数据库中多表合并。

2.算子类型

        数据融合算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

merge_way

合并方式

必选

String

关键字合并

分为关键字合并和顺序合并两种

标识合并方式

key

合并的关键字

必选

Array[String]

合并的关键字

join_type

数据列合并

必填

String

inner

单选,合并方式选择数据列合并时有inner,left,right,full,left_semi,left_anti;

单选,合并方式选择顺序合并时有inner和full

列名生成关键字

order_sort

顺序合并存储

必填

String

标识顺序合并存储属性

key_sort

关键字合并存储

必填

String

标识关键字合并存储属性

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

        选择多个文本算子连接到合并算子上,打开合并算子属性框。

        1)默认选择“数据列合并”

多个文本连接至合并算子及选择数据列合并时属性框

合并算子选择数据列合并时属性框

        修改输入算子排列顺序,从可用关键字中选择并点击移动到右侧,用于合并的关键字,可用关键字是几个文件中相同的列,选择合并关键字后剩下未选择的关键字,此时可修改列名,如图4.4.1-3所示。

选择id作为合并关键字

        再选择合并方式即可提交属性,此时连接方式内连接(inner)、左连接(left)、右连接(right)、全外连接(full)、左半连接(left_semi)和左反连接(left_anti),默认为内连接(inner)

关键字合并时可选连接方式

        2)默认选择“顺序合并”

多个文本连接至合并算子及选择顺序合并时属性框

        列名为多个文件所有列的展示,将重复的列名修改新列名后选择连接方式并提交即可,此时连接方式只有截取和补全,默认为截取。

(3)算子的运行

        多个数据源算子读取数据,可以接任意个数据处理算子,然后都接到同一个合并算子,后可继续接任意个数据处理算子。

8.2 追加

1.算子介绍

        追加算子(UnionNode)是将多个数据集连接起来成一个数据集,是在列维度上的融合。

2.算子类型

        数据融合算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

union_type

追加方式

必填

String

union

单选: union,unionByName

设置追加方式

input_order

输入算子排序

可选

List<String>

List 成员必须是前继算子的 nodeId

输入算子排序

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作。

(2)算子属性设置

        选择多个文本算子连接到追加算子上,打开追加算子属性框。

多文本连接追加算子时算子属性设置

        追加方式选择union时,要求数据列数相同,列名可以不同;

        追加方式选择unionByName时,要求数据列数相同,列名也要相同,列名顺序可以不同;

        修改输入算子排列顺序,会影响最后数据行的显示顺序,且列名顺序会按照序号1的列名顺序排列。如图所示两个文本文件,union1在前,union2在后时结果为。

使用追加算子时union1在前union2在后的结果

        union2在前,union1在后时结果

使用追加算子时union2在前union1在后的结果

3. 算子的运行

        多个数据源算子读取数据,可以接任意个数据处理算子,然后都接到同一个追加算子,后可继续接任意个数据处理算子。


        为了非商业用途的科研学者、研究人员及开发者提供学习、交流及实践机器学习技术,推出了一款轻量化且完全免费的Sentosa_DSML社区版。以轻量化一键安装、平台免费使用、视频教学和社区论坛服务为主要特点,能够与其他数据科学家和机器学习爱好者交流心得,分享经验和解决问题。文章最后附上官网链接,感兴趣工具的可以直接下载使用

Sentosa_DSML社区版icon-default.png?t=O83Ahttps://sentosa.znv.com/

Sentosa_DSML算子流开发视频

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Kenneth風车

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值