数据的身份:存储类型、测量级别、角色。
Modeler 在读取数据阶段,变量可以分为3种状态:
- (1)非实例化:变量的存储类型、取值范围均未知。
- (2)半实例化:变量的存储类型已知,取值范围未知。
- (3)实例化:变量的存储类型、取值范围均已知。
1. 字段的"类型"功能
改变变量的存储类型→字段中的填充节点
改变变量的测量和角色→字段中的"类型"节点
案例:Demos文件下"bank_customer_data.xlsx"的数据文件。
1.1 读取数据文件
1.2 使数据完全实例化
建议:在Modeler读取数据后,对数据进行实例化。另外,当数据源发生变化时,或者对数据进行集成清洗后,对数据重新进行实例化。
1.3 改变字段的测量和角色
2. 字段的"过滤器"功能
设定好变量的身份后,需要对数据进行进一步的处理,比如删除或重命名等。
字段中的"过滤器"节点主要提供数据过滤功能,如删除字段、重命名字段以及匿名化字段等。
案例:Demos文件下"bank_customer_data.xlsx"的数据文件。