目录
【第八章:Sentosa_DSML社区版-数据融合】
Sentosa_DSML社区版-数据融合,数据融合算子作用是将多个表数据根据设定规则融合到一张表中。
8.1 合并
1.算子介绍
合并算子(MergeNode)是将多个数据集按照共同的键合并成一个数据集,是在行维度上的融合,类似于数据库中多表合并。
2.算子类型
数据融合算子
3.算子属性说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
merge_way | 合并方式 | 必选 | String | 关键字合并 | 分为关键字合并和顺序合并两种 | 标识合并方式 |
key | 合并的关键字 | 必选 | Array[String] | 无 | 合并的关键字 | |
join_type | 数据列合并 | 必填 | String | inner | 单选,合并方式选择数据列合并时有inner,left,right,full,left_semi,left_anti; 单选,合并方式选择顺序合并时有inner和full | 列名生成关键字 |
order_sort | 顺序合并存储 | 必填 | String | 无 | 标识顺序合并存储属性 | |
key_sort | 关键字合并存储 | 必填 | String | 无 | 标识关键字合并存储属性 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作。
(2)算子属性设置
选择多个文本算子连接到合并算子上,打开合并算子属性框。
1)默认选择“数据列合并”
多个文本连接至合并算子及选择数据列合并时属性框
合并算子选择数据列合并时属性框
修改输入算子排列顺序,从可用关键字中选择并点击移动到右侧,用于合并的关键字,可用关键字是几个文件中相同的列,选择合并关键字后剩下未选择的关键字,此时可修改列名,如图4.4.1-3所示。
选择id作为合并关键字
再选择合并方式即可提交属性,此时连接方式内连接(inner)、左连接(left)、右连接(right)、全外连接(full)、左半连接(left_semi)和左反连接(left_anti),默认为内连接(inner)
关键字合并时可选连接方式
2)默认选择“顺序合并”
多个文本连接至合并算子及选择顺序合并时属性框
列名为多个文件所有列的展示,将重复的列名修改新列名后选择连接方式并提交即可,此时连接方式只有截取和补全,默认为截取。
(3)算子的运行
多个数据源算子读取数据,可以接任意个数据处理算子,然后都接到同一个合并算子,后可继续接任意个数据处理算子。
8.2 追加
1.算子介绍
追加算子(UnionNode)是将多个数据集连接起来成一个数据集,是在列维度上的融合。
2.算子类型
数据融合算子
3.算子属性说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
union_type | 追加方式 | 必填 | String | union | 单选: union,unionByName | 设置追加方式 |
input_order | 输入算子排序 | 可选 | List<String> | 无 | List 成员必须是前继算子的 nodeId | 输入算子排序 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作。
(2)算子属性设置
选择多个文本算子连接到追加算子上,打开追加算子属性框。
多文本连接追加算子时算子属性设置
追加方式选择union时,要求数据列数相同,列名可以不同;
追加方式选择unionByName时,要求数据列数相同,列名也要相同,列名顺序可以不同;
修改输入算子排列顺序,会影响最后数据行的显示顺序,且列名顺序会按照序号1的列名顺序排列。如图所示两个文本文件,union1在前,union2在后时结果为。
使用追加算子时union1在前union2在后的结果
union2在前,union1在后时结果
使用追加算子时union2在前union1在后的结果
3. 算子的运行
多个数据源算子读取数据,可以接任意个数据处理算子,然后都接到同一个追加算子,后可继续接任意个数据处理算子。
为了非商业用途的科研学者、研究人员及开发者提供学习、交流及实践机器学习技术,推出了一款轻量化且完全免费的Sentosa_DSML社区版。以轻量化一键安装、平台免费使用、视频教学和社区论坛服务为主要特点,能够与其他数据科学家和机器学习爱好者交流心得,分享经验和解决问题。文章最后附上官网链接,感兴趣工具的可以直接下载使用
Sentosa_DSML社区版https://sentosa.znv.com/
Sentosa_DSML算子流开发视频