最近在看《机器学习实战》这本书,书中的机器学习算法都很经典,写的也很详细,是一本不错的书,适合夯实基础,不过有一点缺陷就是书中使用的Python2的编译器代码,多多少少会与当前主流的Python3有些出入,所以小编在看书之余也准备将本书中的代码重新敲一遍到Python3,一起学习,一起进步,本栏目持续更新,知道本博主看完敲完这本书。
K-均值聚类算法
K-均值聚类算法是一种无监督的学习算法,首先通过随机生成簇来进行聚类,然后每一次更新簇中的质心,从而重新对更新的簇进行重新聚类,周而复始,迭代足够的次数后,得到最合适的簇。下图为K-均值聚类算法的基本流程:
算法代码详解
1.K-均值聚类的一般流程
(1)收集和处理数据:将数据进行结构化,变成代码可处理的数据结构
(2)分析数据:通过算法进行数据分析,本文使用的是k-均值算法
(3)训练算法:由于K-均值算法属于无监督学习,所以不需要训练算法,即无监督学习没有训练过程
(4)测试算法:用来测试准确度
2.收集和处理数据
本部分