Programming Collective Intelligence笔记 - Discovering Groups

1.1.       Hierarchical Clustering

使用类似于Huffman编码时的合并方式。假设有N个节点,每个节点的值都是一个向量。通过第二章介绍的寻找相似物品的公式,我们可以计算任何两个向量间的距离。把距离最小的两个向量合并,生成一个新的节点,该节点的向量值是被合并的两个节点的向量的平均。一直以这种方式进行合并,最终就可以生成一棵树。

该算法的优点是结果唯一,但缺点是效率低,因为每次合并后都需要重新计算向量间的距离。

 

1.2.       K-Means Clustering

该算法不会生成树,而只是把相关的数据分划到K个列表而已。K是一个参数,表示希望分割成的组合数。假设我们有N个节点(N1,N2,…),每个节点的值都是一个向量。根据K值的不同,我们随机的生成K个向量(K1,K2,…)。然后使用第二章的公式,分别计算每个节点(Nx)跟这K个随机向量(Ky)的距离,如果NxKy的距离最小,则把Nx划入第y个分划之中。

当所有的节点都划分以后,我们重新计算K值,Ky的计算方式是把划分到y的所有向量求平均,把平均值作为新的Ky值。然后按照之前的步骤,把所有的节点(Nx)基于这些新的K值进行分划。

经过多次迭代之后,如果分划不再发生变化,则将之作为最终结果。

该算法的优点是速度快,但缺点是结果不唯一,结果依赖于起始的K个随机值的选取。

 

1.3.       Multidimensional Scaling

简单来说,这个不是用来做分类的算法,而是如何可视化的显示节点的方法。他能够根据相似度把节点分布在一个多维的空间当中。节点的距离使用第二章的公式计算。

假定这里我们是希望把所有节点显示在2维平面当中。开始时我们可以把节点在2维平面当中随机布置。然后计算出他们之间的距离,把两点之间的真实距离和实际距离做一个比较,得出一个偏差,然后根据这个偏差对节点的位置进行调整。

调整以后,重新计算距离,重新计算偏差,重新调整

当某一次调整后的误差比调整前的误差大时,或者调整的次数大于我们设定的最大调整数时,调整停止。详细的调整算法,可以参考书。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值