本文介绍无监督学习算法:
- 聚类算法
- Apriori算法
- FP-growth 算法
因时间关系,就简单介绍其原理,不涉及实例和代码
1 聚类算法
聚类(Clustering)与分类(classification)的最大不同在于,分类的目标事先已知,而聚类不一样,因产生结果和分类相同,
只是类别没有预先定义,所以聚类也有时叫无监督分类(Unsupervised classification)
所谓无监督学习是指事先并不知道要寻找的内容,即没有目标变量。聚类将数据点归到多个簇中,其中相似数据点处于同一簇,
而不相似数据点处于不同簇中。聚类中可以使用多种不同的方法来计算相似度。
1.1 K-均值聚类算法
一种广泛使用的聚类算法是K-均值算法,其中K是用户指定的要创建的簇的数目。K-均值聚类算法以K个随机质心开始。算法会计算
每个点到质心的距离。每个点会被分配到距其最近的簇质心,然后紧接着基于新分配到簇的点更新簇质心。以上过程重复数次,直到簇质
心不再改变。
优点:容易实现
缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。
适用数据类型:数据型数据
实现思路:
随机设定K个簇质心点,然后最近原则进行分类(簇),重新计算质心&#