【KNIME经验】依据固定值设置分段序号

最新推荐文章于 2023-11-25 17:46:47 发布

星汉长空

最新推荐文章于 2023-11-25 17:46:47 发布

阅读量323

点赞数

文章标签： servlet dreamweaver java etl工程师

本文链接：https://blog.csdn.net/veteranhit/article/details/128328302

版权

步骤1. 如图所示，在KNIME中加入Table Creator节点。

步骤2. 在Table Creator节点中，双击编辑单元格，填入一列测试数据（亦可由Excel文件读入，或者通过Excel文件拷贝粘贴得到），其中含有若干属性值“户主”，代表新的一户记录的开始，下面接着记录了该户下面的人员情况。所有人员信息都依次在一列当中记录。

********************************************************************************
问题：如何依据固定的属性值（本例为“户主”），为所有的记录设置分段序号，出现“户主”记录的位置，恢复序号为1；对于该户的附属人员，按照出现的顺序赋予序号2，3，4...
********************************************************************************
思路：自然想到使用Rank或者Math Formula节点来获取ROWINDEX，获取基本序号。接着想到“户主”记录所在的位置，有其自身的行索引序号，如果将二者作差，就可以恢复“户主”位置的序号（得到0，再加1）；对于其他的位置，则需要沿袭该位置从属的“户主”属性值所在位置的行索引序号。这即可以通过Missing Value节点实现，也可以像本例中，使用Moving Aggregation节点实现。
********************************************************************************

步骤3. 链接一个Rule Engine节点，在Expression框中，写下$column1$ = "户主" => $$ROWINDEX$$的语句，选择“Append Column”，保持列名“prediction”的默认设置（也可以根据需要更改列名）。经过该节点处理，属性值为“户主”的位置，将出现行索引序号（整型），其他的位置为空（Missing Value）。

步骤4. 链接一个Moving Aggregation节点，勾选“Cumulative computation”，在“Aggregation settings”标签页，“Available columns”框中，选择刚刚建立的“prediction”列，将其使用“add>>”按钮加入到聚合方法框中，选择聚合方法为“Maximum”，完成节点设置。点击“OK”按钮，退出并执行该节点，可以得到图片中蓝色框中的新的“Max*(prediction)”数据列。由于我们使用了逐步最大值聚合，当遇到“户主”序号的时候，就会加以保持，为其从属属性值加入相同的行索引序号。达到了我们在上文“思路”段落中提到的要求。

步骤5. 链接一个Math Formula节点，在Expression框中，写下$$ROWINDEX$$-$Max*(prediction)$+1，用行索引减去步骤 4 获得的“阶梯式”最大索引值（结合加1的修正），即为所求。

解释1. 何为KNIME？KNIME数据分析平台是一款强大开源的数据挖掘软件平台，可以固化数据处理的流程，在人与人，人与机器之间进行传递。

解释2. 使用Missing Value节点是如何完成步骤 4 的？原理相似，链接一个Missing Value节点，对其中的“Number（long）”类型数据，使用“Previous Value*”的缺失值填充方法，一样可以得到与步骤 4 结果相同的“阶梯式”最大索引值列。