分别利用scikit-learn库函数和自编函数实现K近邻分类器（选用乳腺癌数据）——机器学习

最新推荐文章于 2024-04-25 14:09:26 发布

Vous oublie@

最新推荐文章于 2024-04-25 14:09:26 发布

阅读量620

点赞数 2

分类专栏：算法设计与分析文章标签： scikit-learn python

本文链接：https://blog.csdn.net/qq_54000767/article/details/128081763

版权

算法设计与分析专栏收录该内容

2 篇文章 0 订阅

订阅专栏

scikit-learn库函数实现

自编函数

scikit-learn库函数实现

代码部分：

import seaborn as sns
from sklearn.model_selection import train_test_split     #导入切分训练集、测试集模块
from sklearn.neighbors import KNeighborsClassifier
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix

df = pd.read_csv('breastCancer.csv')# 导入训练集
df.head()  # 查看数据集前五行

X1=df.iloc[:,df.columns!="Class"]  # 选择所有行和列，但排除type的那一列
X=X1.iloc[:,1:]
print(X)
y=df['Class']  # 将Class列作为预测值
# # 划分数据集
X_train, X_valid, y_train, y_valid = train_test_split(X, y,test_size = 0.3,random_state=0)

def model():
    knn = KNeighborsClassifier(8)    #实例化KNN模型
    knn.fit(X_train, y_train)      #放入训练数据进行训练
    print(knn.predict(X_valid))           #打印预测内容
    # print(y_valid)     #实际标签
    print("准确率：",knn.score(X_valid, y_valid))
    return knn

def show():
    prediction=model().predict(X_valid)
    plt.figure(figsize=(10, 7))
    cm = confusion_matrix(y_valid, prediction)

    ax = sns.heatmap(cm, annot=True, fmt="d", cmap='Blues')
    plt.ylabel('Actual label')  # x轴标题
    plt.xlabel('Predicted label')  # y轴标题
    plt.show()

if __name__ == '__main__':
    show()

最后结果：

在对最后数据进行展现的时候只用了一个混淆矩阵进行显示，个人觉得没有很好进行数据对比和展现，由于比较懒，也就没有进行优化和更改，希望谅解，最后的准确率还是比较高的。

自编函数

代码部分：

import numpy as np
import operator
import pandas as pd

def createDataSet():
    # group - 数据集
    # labels - 分类标签
    df = pd.read_csv('breastCancer.csv')# 导入训练集
    group_01=df.iloc[:,df.columns!="Class"]  # 选择所有行和列，但排除type的那一列
    group=group_01.iloc[:,1:] # 由于第一行是编码数字，与预测分类没有关系，就直接去掉了
    labels=df['Class']  # 将Class列作为预测值
    # # 划分数据集

    return group,labels

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndices = distances.argsort()
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndices[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]
if __name__ == '__main__':
    group,labels=createDataSet()
    group_01=np.array(group)
    labels=np.array(labels)
    test=np.array(group.iloc[:5,:]).tolist()   #转为列表
    print("测试集",test)
    # kNN分类
    results=[] # 预测的结果
    for  i  in test:
        test_class = classify0(i, group, labels, 3)
    # 打印分类结果
        results.append(test_class)
    print(results)
    # 最终得到最后的预测结果