聚类
文章平均质量分 72
sky88088
这个作者很懒,什么都没留下…
展开
-
聚类算法实践(五)——真实Dataset测试
在之前的文章里,讨论了一些聚类算法的基本思路,并针对人为构造的数据进行了测试。然而,真实的数据毕竟不同于人工数据。在对现实数据进行聚类的时候,有时候不知道哪些特征才是最关键的,因此多少会掺杂一些无关的特征,这样,就会“稀释”不同类别之间的差别。所以,这些聚类算法最后还要针对真实的数据集做一个测试。 这里我采用的是已知分类的几个数据集wine,ecoli和breast-cancer-wiscon原创 2016-06-02 20:28:17 · 4639 阅读 · 1 评论 -
聚类算法实践(四)——算法总结
前面的文章里总共提到了7种聚类算法,我们就会情不自禁地想知道,哪一种是“最好”的聚类算法?正如我在一开始就提到,聚类实际上是由用户来给定规则,从而实现分类的。所以所谓“最好”的聚类算法,就应该是那个聚类规则“最能反映系统特征”的算法(当然,在同样能反映系统特征的情况下,效率越高自然越好,比如AP算法就要优于K-centers算法)。在聚类算法中,最为关键的规则是什么呢?我个人认为,应该就是对样品相似原创 2016-06-02 20:25:06 · 1945 阅读 · 0 评论 -
聚类算法实践(一)——层次聚类、K-means聚类
因为百度云的文章里面有些图片丢失了,想起这篇东西之前被一个中国统计网转发过,所以自己搜了一下想直接把图搞回来,结果发现到处转载的也有不少,自己现在发倒好像是抄袭似的。其实这篇文章里面特别有价值的东西不算太多,PCCA算是一个知道的人不多而且也挺有意义的算法,谱聚类的物理解释也算值得说说,之所以被转载可能是因为图多,而且看起来像比较系统吧。原创 2016-05-25 21:03:13 · 20638 阅读 · 1 评论 -
聚类算法实践(二)——谱聚类、Chameleon聚类
上一篇文章里说到的层次聚类和K-means聚类,可以说是聚类算法里面最基本的两种方法(wiki的cluster analysis页面都把它们排前两位)。这次要探讨的,则是两个相对“高级”一点的方法:谱聚类和chameleon聚类。原创 2016-06-01 20:43:29 · 12002 阅读 · 3 评论 -
聚类算法实践(三)——PCCA、SOM、Affinity Propagation
这篇日志是这个系列里算法部分的最后一篇,关注的是几个相对另类一点的聚类算法:PCCA、SOM和Affinity Propagation。PCCA是设计来专门用于马尔科夫模型的一种聚类算法;SOM是基于神经网络模型的自组织聚类;最后的Affinity Propagation则是在07年才在Science发表的一种较新颖的算法。原创 2016-06-02 20:18:59 · 7780 阅读 · 3 评论