机器学习系列（一）-- KNN分类

最新推荐文章于 2024-04-29 11:28:57 发布

gm0012

最新推荐文章于 2024-04-29 11:28:57 发布

阅读量370

点赞数 1

文章标签：机器学习 python

本文链接：https://blog.csdn.net/gm0012/article/details/110238194

版权

首先下载莺尾花数据集
对数据进行处理

import numpy as np
import pandas as pd

# 读取数据集 header参数用来指定标题的行，默认为零，如果默认没有标题，则使用None
data = pd.read_csv('iris.csv')
print(data)
# 显示前n行数据，默认值为5
# print(data.head())
# 显示末尾的n行记录，默认值为5
# print(data.tail())
# 随机抽取样本，默认抽取一条，可以通过参数进行指定抽取样本的数量
# print(data.sample(10))


#  数据映射
data['Species'] = data['Species'].map({'setosa':0,'versicolor':1,'virginica':2})
# print(data)


# 查看各个类别的莺尾花有多少条记录
print(data['Species'].value_counts())

# 长度
n = len(data)
# print(n)

# 删除不需要的ID列
# data.drop('')
# data = data.drop('ID',axis=0,inplace=True)
# 是否重复
# data = data.duplicated().any()

# 删除重复
# data = data.drop_duplicates(inplace=True)
# print(len(data))

KNN类

class KNN:
    # 实现K邻算法
    def __init__(self,k):
        # 初始化方法

        # paramaters
        # k : int 邻居的个数
        self.k = k

    def fit(self,X,y):
        # 训练方法
        # paramaters X : 类数组类型， 形状为：{样本数量，特征数量} 待训练的样本特征（属性）
        # y : 类数组类型， 形状为： {样本数量}  每个样本的目标值（标签）

        # 将X样本转换为ndarray数组类型
        self.X = np.asarray(X)
        self.y = np.asarray(y)

    def predict(self,X):
        # 根据参数传递的样本， 对样本数据进行预测
        # paramaters X : 类数组类型， 形状为：{样本数量，特征数量} 待训练的样本特征（属性）
        # return result：数组类型
        #               预测的结果
        X = np.asarray(X)
        result = []

        # 每次取数组中的一样数据
        for x in X:
            # 对于测试集中的每一个样本  依次与训练集中的所有样本求距离
            dis = np.sqrt(np.sum((x - self.X)**2,axis=1))
            # 返回数组排序后 每个元素在原数组中的索引
            index = dis.argsort()

            #  进行截断 只取前K个元素  取距离最近的k个元素的索引
            index = index[:self.k]
            # print(index)
            #  返回数组中每个元素出现的次数  元素必须是非负的整数
            # count = np.bincount(self.y[index])
            count = np.bincount(self.y[index])
            #  返回ndarray数组中，值最大的元素对应的索引 该索引就是我们判定的类别
            #  最大元素索引， 就是出现次数最多的元素
            result.append(count.argmax())
        return np.asarray(result)

对数据进行训练和测试

# 提取每个类别中莺尾花的数据
t0 = data[data['Species'] == 0]
# print(len(t0))
t1 = data[data['Species'] == 1]
t2 = data[data['Species'] == 2]

# 为了数据具有随机性 进行洗牌
t0 = t0.sample(len(t0),random_state=0)
t1 = t1.sample(len(t1),random_state=0)
t2 = t2.sample(len(t2),random_state=0)

#构建训练集和测试集
train_X = pd.concat([t0.iloc[:40,:-1],t1.iloc[:40,:-1],t2.iloc[:40,:-1]],axis=0)
train_y = pd.concat([t0.iloc[:40,:-1],t1.iloc[:40,:-1],t2.iloc[:40,:-1]],axis=0)
test_X = pd.concat([t0.iloc[40:,:-1],t1.iloc[40:,:-1],t2.iloc[40:,:-1]],axis=0)
test_y = pd.concat([t0.iloc[40:,:-1],t1.iloc[40:,:-1],t2.iloc[40:,:-1]],axis=0)

# 创建KNN对象 进行训练和测试
knn = KNN(k=3)
# 进行训练
knn.fit(train_X,train_y)
# 进行测试 获得测试结果
result = knn.predict(test_X)
print(result)

print(np.sum(result==test_y))

print(np.sum(result==test_y)/len(result))

KNN可视化

import matplotlib as mpl
import matplotlib.pyplot as plt

# 默认情况下 matplotlib不支持中文显示，我们需要进行一下设置
# 设置字体为黑体 以支持中文显示
mpl.rcParams['font.family'] = 'SimHei'
# 设置在中文字体时   能够正常的显示负号（-）
mpl.rcParams['axes.unicode_minus'] = False

# {'setosa':0,'versicolor':1,'virginica':2}

# 设置画布的大小
plt.figure(10,10)
# 绘制训练散点图
plt.scatter(x=t0['Sepal.Length '][:40],y=t0['Petal.Length'],color='r',label='virginica')
plt.scatter(x=t1['Sepal.Length '][:40],y=t1['Petal.Length'],color='g',label='setosa')
plt.scatter(x=t2['Sepal.Length '][:40],y=t2['Petal.Length'],color='b',label='versicolor')

# 绘制测试集数据
right = test_X[result == test_y]
wrong = test_X[result != test_y]
plt.scatter(x=right['Sepal.Length '],y=right['Petal.Length'],color='c',marker='s',lable='right' )
plt.scatter(x=wrong['Sepal.Length '],y=wrong['Petal.Length'],color='a',marker='>',lable='wrong' )
plt.xlabel('花萼长度')
plt.ylabel('花瓣长度')
plt.title('KNN分类结果显示')
plt.legend(loc='best')
plt.show()

gm0012

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习系列（一）-- KNN分类

首先下载莺尾花数据集对数据进行处理import numpy as npimport pandas as pd# 读取数据集 header参数用来指定标题的行，默认为零，如果默认没有标题，则使用Nonedata = pd.read_csv('iris.csv')print(data)# 显示前n行数据，默认值为5# print(data.head())# 显示末尾的n行记录，默认值为5# print(data.tail())# 随机抽取样本，默认抽取一条，可以通过参数进行指定抽取样本
复制链接

扫一扫