数据挖掘||机器学习
搞向CUIT
这个作者很懒,什么都没留下…
展开
-
深入浅出K-Means算法
在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法.问题K-Means算法主要解决的问题如下图所示。我们可以看到,在图的左边有一些点,我们用肉眼可以看出来有四个点群,但是我们怎么通过计算机程序找出这几个点群来呢?于是就出现了我们的K-Means算法算法概要这个算法其实很简单,如下图所示:从上图中,我们可以转载 2017-04-02 18:06:54 · 484 阅读 · 0 评论 -
K-means 之国足小例子
摘要分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本文首先介绍聚类的基础——距离与相异度,然后介绍一种常见的聚类算法——k均值和转载 2017-04-02 19:42:13 · 6442 阅读 · 6 评论 -
K-Means++算法
k-means算法是一种基本的聚类算法,这个算法的先决条件是 1)必须选择最终结果需要聚为几类,就是k的大小。 2)初始化聚类中心点,也就是seeds。 当然,我们可以在输入的数据集中随机的选择k个点作为seeds,但是随机选择初始seeds可能会造成聚类的结果和数据的实际分布相差很大。既然选择初始的seeds这么重要,那有什么算法可以帮助选择初始的seeds吗?当然有,k-means++就是转载 2017-04-02 21:17:43 · 585 阅读 · 0 评论