机器学习之聚类学习笔记-利用python的sklearn实现

最新推荐文章于 2024-09-04 01:17:21 发布

勤奋努力的野指针

最新推荐文章于 2024-09-04 01:17:21 发布

阅读量609

点赞数 1

分类专栏： python 文章标签：聚类学习机器学习 python 算法

本文链接：https://blog.csdn.net/suolong1/article/details/124535338

版权

这篇博客介绍了机器学习中的聚类算法，重点讲解了如何使用Python的sklearn库实现K-means和DBSCAN算法。内容包括K-means的改进、多个示例以及均值漂移聚类算法的概念和工作原理。通过实例演示，帮助读者理解和应用这些聚类方法。

摘要由CSDN通过智能技术生成

学习来源
sklearn中文文档
在这里插入图片描述
 聚类算法练习
 python代码实现K-means算法
 Python数模笔记-Sklearn（2）聚类分析
 均值偏移聚类

K-means聚类算法

该算法可分为三个步骤。第一步是选择初始质心，最基本的方法是从 X 数据集中选择 k 个样本。初始化完成后，K-means 由接下来两个步骤之间的循环组成。第一步将每个样本分配到其最近的质心。第二步通过取分配给每个先前质心的所有样本的平均值来创建新的质心。计算旧的和新的质心之间的差异，并且算法重复这些最后的两个步骤，直到该值小于阈值。换句话说，算法重复这个步骤，直到质心不再显著移动。

from sklearn.cluster import KMeans  # 导入 sklearn.cluster.KMeans 类
import numpy as np

X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]])
kmCluster = KMeans(n_clusters=2).fit(X)  # 建立模型并进行聚类，设定 K=2
print(kmCluster.cluster_centers_)  # 返回每个聚类中心的坐标
# [[10., 2.], [ 1., 2.]]  # print 显示聚类中心坐标
print(kmCluster.labels_)  # 返回样本集的分类结果
# [1, 1, 1, 0, 0, 0]  # print 显示分类结果
print(kmCluster.predict([[0, 0], [12, 3]]))  # 根据模型聚类结果进行预测判断
# [1, 0]  # print显示判断结果：样本属于哪个类别

[[10.  2.]
 [ 1.  2.]]
[1 1 1 0 0 0]
[1 0]

改进

from sklearn.cluster import MiniBatchKMeans  # 导入 MiniBatchKMeans 类
import numpy as np

X = np.array([[1, 2], [1, 4], [1, 0], [4, 2], [4, 0], [4, 4],
              [4, 5], [0, 1], [2, 2], [3, 2], [5, 5], [1, -1]])
# fit on the whole data
mbkmCluster = MiniBatchKMeans(n_clusters=2, batch_size=6, max_iter=10).fit(X)
print(mbkmCluster.cluster_centers_)  # 返回每个聚类中心的坐标
# [[3.96,2.41], [1.12,1.39]] # print 显示内容
print(mbkmCluster.labels_)  # 返回样本集的分类结果
# [1 1 1 0 0 0 0 1 1 0 0 1]  # print 显示内容
print(mbkmCluster.predict([[0, 0], [4, 5]]))  # 根据模型聚类结果进行预测判断
# [1, 0]  # 显示判断结果：样本属于哪个类别

[[1.8115942  0.84057971]
 [3.47058824 3.88235294]]
[0 1 0 1 0 1 1 0 0 0 1 0]
[0 1]

示例1

import sys
sys.path.append('/home/aistudio/external-libraries')
from numpy import *


def loadDataSet(fileName):  # general function to parse tab -delimited floats
    dataMat = []  # assume last column is target value
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = list(map(float, curLine))  # map all elements to float()
        dataMat.append(fltLine)
    return dataMat


def distEclud(vecA, vecB):
    return sqrt(sum(power(vecA - vecB, 2)))  # la.norm(vecA-vecB)


def randCent(dataSet, k):
    n = shape(dataSet)[1]
    centroids = mat(zeros((k, n)))  # create centroid mat
    for j in range(n):  # create random cluster centers, within bounds of each dimension
        minJ = min(dataSet[:, j])
        rangeJ = float(max(dataSet[:, j]) - minJ)
        centroids[:, j] = mat(minJ + rangeJ * random.rand(k, 1))
    return centroids


def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m, 2)))  # create mat to assign data points
    # to a centroid, also holds SE of each point
    centroids = createCent(dataSet<