当已有了二步聚类法的训练结果,怎么固化到其他新样本
按照上面的式子 对新的样本进行类别判断的时候,依然如同k-means一样,计算距离 然后选择最近的类 作为新样本的类别标记。
上面的式子是计算2个类别之间的距离,有方差,而样本作为单个,方差为0,由数据在处理前是经过对中方差单位化,所以类别和样本之间的距离可以化成下式:
根据上面的思路进行了sql脚本编写,固化后与之前训练时20w数据进行比对,匹配率96.6% 。
这里面有个问题没想清楚:距离的计算涉及 类别的数量,当数量越大岂不是越削弱新增样本点对整体的波动,可以造成,任何新样本点与各分类之间距离差异变小。但是尝试了把各群从真实数量不断除以10 ,然后尝试不同加权判类结果,缩小各类数量 反而增加了误差,不过也不是很大 95%吻合。选择真实群数 的准确率最高,且里面被误判的类与正确的类之间的距离差异小:
……
另外,如果输入变量均为数值型变量,那么可以采用 欧氏距离。
用欧式距离进行重新判类,准确率也可高达 94% …… 如果没有分类变量的话,还是使用欧氏距离 吧。
remain: 两步聚类为什么有误分类项 依然不知·!·决定无视