数据挖掘--聚类之K均值算法

本文介绍了数据挖掘中的聚类概念,重点讲解了K均值算法的核心思想,即选择初始聚类中心,通过迭代调整聚类中心并重新分配数据对象,直到达到收敛条件。还提及了K中心点算法在处理噪声和离群数据时的优势,但其计算成本更高。
摘要由CSDN通过智能技术生成

1.聚类概念

聚类 是将物理或抽象对象的集合分成相似的对象类的过程。使得同一个簇中的对象之间具有较高的相似性,而不同簇中的对象具有较高的相异性。 是数据对象的集合,这些对象与同一簇中的对象彼此相似,而与其他簇的对象相异。

聚类可形式描述为:

    D={ o1, o2, ……, on}表示一个对象集合,

    oi表示第i个对象,i={1,2,……,n}

    Cx表示第x个簇,CxÍD,x=12k

    Similarity(oi,oj)表示对象oi与对象oj之间的相似度。

2.K均值算法

误差平方和准则:Nx是第x个簇Cx中的对象数目,mx是这些对象的均值,即
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值