数据挖掘实验相关--记录_实现id3算法,验证算法的正确性,并将算法应用于给定的数据集bank-data,选择一部分-CSDN博客

import pandas as pd
import matplotlib.pyplot as plt
from numpy import nonzero
from sklearn.cluster import KMeans
from sklearn.metrics import f1_score, accuracy_score, normalized_mutual_info_score, rand_score
from sklearn.preprocessing import LabelEncoder
from sklearn.decomposition import PCA
import csv
# 定义文件路径
csv_path = 'C:/Users/Xu/Desktop/iris.csv'

df_full = pd.read_csv(csv_path)  # 鸢尾花数据集 Iris  class=3


columns = list(df_full.columns)  # 获取数据集的第一行，第一行通常为特征名，所以先取出
features = columns[:len(columns) - 1]  # 数据集的特征名（去除了最后一列，因为最后一列存放的是标签，不是数据）
df = df_full[features]  # 预处理之后的数据，去除掉了第一行的数据（因为其为特征名，如果数据第一行不是特征名，可跳过这一步）

class_labels = list(df_full[columns[-1]])  # 原始标签
if type(class_labels[0]) != int:
    class_labels = LabelEncoder().fit_transform(df_full[columns[len(columns)-1]])  # 如果标签为文本类型，把文本标签转换为数字标签
    print("此数据集标签为文本类型，已经转化为数字标签！")

K = 3

# 这里已经知道了分3类，其他分类这里的参数需要调试
model = KMeans(n_clusters=K)
# 训练模型
model.fit(df)
# 预测全部数据
label = model.predict(df)
print(label)


def clustering_indicators(labels_true, labels_pred):
    f_measure = f1_score(labels_true, labels_pred, average='macro')  # F值
    accuracy = accuracy_score(labels_true, labels_pred)  # ACC
    normalized_mutual_information = normalized_mutual_info_score(labels_true, labels_pred)  # NMI
    rand_index = rand_score(labels_true, labels_pred)  # RI
    return f_measure, accuracy, normalized_mutual_information, rand_index


F_measure, ACC, NMI, RI = clustering_indicators(class_labels, label)
print("F_measure:", F_measure, "ACC:", ACC, "NMI", NMI, "RI", RI)
data_reduced = PCA(n_components=2).fit_transform(df)  # 降维

# 打印出聚类散点图
plt.scatter(data_reduced[:, 0], data_reduced[:, 1], marker='o', c='black', s=7)  # 原图
plt.show()
plt.scatter(data_reduced[nonzero(label == 0), 0], data_reduced[nonzero(label == 0), 1], c='red', s=7)
plt.scatter(data_reduced[nonzero(label == 1), 0], data_reduced[nonzero(label == 1), 1], c='blue', s=7)
plt.scatter(data_reduced[nonzero(label == 2), 0], data_reduced[nonzero(label == 2), 1], c='green', s=7)
plt.show()

【机器学习】K-means（非常详细） - 知乎

python：读取csv文件路径正确但报错FileNotFoundError: [Errno 2] No such file or directory_我爱写BUG的博客-CSDN博客

K-means聚类算法（附Python实现代码）_kmeans聚类算法python代码_helloWorldZMY的博客-CSDN博客

《数据挖掘基础》实验：Weka平台实现聚类算法_weka聚类分析_lazyn的博客-CSDN博客