two-steps 对数似然距离·数值变量计算

当已有了二步聚类法的训练结果,怎么固化到其他新样本



按照上面的式子 对新的样本进行类别判断的时候,依然如同k-means一样,计算距离 然后选择最近的类 作为新样本的类别标记。

上面的式子是计算2个类别之间的距离,有方差,而样本作为单个,方差为0,由数据在处理前是经过对中方差单位化,所以类别和样本之间的距离可以化成下式:



根据上面的思路进行了sql脚本编写,固化后与之前训练时20w数据进行比对,匹配率96.6% 。

这里面有个问题没想清楚:距离的计算涉及 类别的数量,当数量越大岂不是越削弱新增样本点对整体的波动,可以造成,任何新样本点与各分类之间距离差异变小。但是尝试了把各群从真实数量不断除以10 ,然后尝试不同加权判类结果,缩小各类数量 反而增加了误差,不过也不是很大 95%吻合。选择真实群数 的准确率最高,且里面被误判的类与正确的类之间的距离差异小:


…… 


另外,如果输入变量均为数值型变量,那么可以采用 欧氏距离。

用欧式距离进行重新判类,准确率也可高达 94% …… 如果没有分类变量的话,还是使用欧氏距离 吧。

remain: 两步聚类为什么有误分类项 依然不知·!·决定无视




  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值