K-means-:在聚类时发现异常

11月4日和5日,BigML加入哈马德滨哈利法大学的卡塔尔计算研究所(QCRI),将机器学习学校带到卡塔尔的多哈!我们很高兴有机会与QCRI合作。

在会议期间,Sanjay Chawla博士讨论了他的异常聚类算法,k-means-。我们认为使用我们的特定领域语言实现机器学习工作流程WhizzML的变体来实现它的变体是一种有趣的练习。 

k均值算法的通常过程如下。它从一些数据集,一些数量的簇k和一些预期的异常值l开始。它随机选取k个质心,并根据哪一个最接近,将数据集的每个点分配给这些质心中的一个。到目前为止,它就像香草k-means一样。在vanilla k-means中,您现在可以找到每个聚类的均值并将其设置为新的质心。然而,在k-means中,你首先找到l离指定质心最远的点,并从数据集中过滤它们。使用剩余点找到新的质心。通过去除这些点,我们将发现不受异常值影响的质心,因此不同(并且希望更好)质心。

我们已经在BigML(集群资源)中实现了k-means。但这不是香草k-means。不是通过平均集群中的所有点来找到新的质心,而是通过对点进行采样并使用梯度下降方法来更快地实现BigML。BigML也比vanilla k-means选择更好的初始条件。我们将改编Chawla的k-means,而不是失去这些好处,在核心迭代中使用完整的BigML集群资源。

这个WhizzML脚本是我们实现的核心。

(定义(得到- 异常 DS - ID  过滤- DS  ķ  升)
  (让(集群- ID(创建- 和- 等待- 集群 { “K”  ķ 
<
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值