two-steps 对数似然距离·数值变量计算

最新推荐文章于 2024-07-05 13:31:52 发布

u012891477

最新推荐文章于 2024-07-05 13:31:52 发布

阅读量1.9k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012891477/article/details/44831405

版权

当已有了二步聚类法的训练结果，怎么固化到其他新样本

按照上面的式子对新的样本进行类别判断的时候，依然如同k-means一样，计算距离然后选择最近的类作为新样本的类别标记。

上面的式子是计算2个类别之间的距离，有方差，而样本作为单个，方差为0，由数据在处理前是经过对中方差单位化，所以类别和样本之间的距离可以化成下式：

根据上面的思路进行了sql脚本编写，固化后与之前训练时20w数据进行比对，匹配率96.6% 。

这里面有个问题没想清楚：距离的计算涉及类别的数量，当数量越大岂不是越削弱新增样本点对整体的波动，可以造成，任何新样本点与各分类之间距离差异变小。但是尝试了把各群从真实数量不断除以10 ，然后尝试不同加权判类结果，缩小各类数量反而增加了误差，不过也不是很大 95%吻合。选择真实群数的准确率最高，且里面被误判的类与正确的类之间的距离差异小：

……

另外，如果输入变量均为数值型变量，那么可以采用欧氏距离。

用欧式距离进行重新判类，准确率也可高达 94% …… 如果没有分类变量的话，还是使用欧氏距离吧。

remain: 两步聚类为什么有误分类项依然不知·！·决定无视

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
two-steps 对数似然距离·数值变量计算

当已有了二步聚类法的训练结果，怎么固化到其他新样本按照上面的式子对新的样本进行类别判断的时候，依然如同k-means一样，计算距离然后选择最近的类作为新样本的类别标记。上面的式子是计算2个类别之间的距离，有方差，而样本作为单个，方差为0，由数据在处理前是经过对中方差单位化，所以类别和样本之间的距离可以化成下式：根据上面的思路进行了sql脚本编写
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。