机器学习系列(一)-- KNN分类

首先下载 莺尾花数据集
对数据进行处理

import numpy as np
import pandas as pd

# 读取数据集 header参数用来指定标题的行,默认为零,如果默认没有标题,则使用None
data = pd.read_csv('iris.csv')
print(data)
# 显示前n行数据,默认值为5
# print(data.head())
# 显示末尾的n行记录,默认值为5
# print(data.tail())
# 随机抽取样本,默认抽取一条,可以通过参数进行指定抽取样本的数量
# print(data.sample(10))


#  数据映射
data['Species'] = data['Species'].map({'setosa':0,'versicolor':1,'virginica':2})
# print(data)


# 查看各个类别的莺尾花有多少条记录
print(data['Species'].value_counts())

# 长度
n = len(data)
# print(n)

# 删除不需要的ID列
# data.drop('')
# data = data.drop('ID',axis=0,inplace=True)
# 是否重复
# data = data.duplicated().any()

# 删除重复
# data = data.drop_duplicates(inplace=True)
# print(len(data))

KNN类

class KNN:
    # 实现K邻算法
    def __init__(self,k):
        # 初始化方法

        # paramaters
        # k : int 邻居的个数
        self.k = k

    def fit(self,X,y):
        # 训练方法
        # paramaters X : 类数组类型, 形状为:{样本数量,特征数量} 待训练的样本特征(属性)
        # y : 类数组类型, 形状为: {样本数量}  每个样本的目标值(标签)

        # 将X样本转换为ndarray数组类型
        self.X = np.asarray(X)
        self.y = np.asarray(y)

    def predict(self,X):
        # 根据参数传递的样本, 对样本数据进行预测
        # paramaters X : 类数组类型, 形状为:{样本数量,特征数量} 待训练的样本特征(属性)
        # return result:数组类型
        #               预测的结果
        X = np.asarray(X)
        result = []

        # 每次取数组中的一样数据
        for x in X:
            # 对于测试集中的每一个样本  依次与训练集中的所有样本求距离
            dis = np.sqrt(np.sum((x - self.X)**2,axis=1))
            # 返回数组排序后 每个元素在原数组中的索引
            index = dis.argsort()

            #  进行截断 只取前K个元素  取距离最近的k个元素的索引
            index = index[:self.k]
            # print(index)
            #  返回数组中每个元素出现的次数  元素必须是非负的整数
            # count = np.bincount(self.y[index])
            count = np.bincount(self.y[index])
            #  返回ndarray数组中,值最大的元素对应的索引 该索引就是我们判定的类别
            #  最大元素索引, 就是出现次数最多的元素
            result.append(count.argmax())
        return np.asarray(result)

对数据进行训练和测试

# 提取每个类别中莺尾花的数据
t0 = data[data['Species'] == 0]
# print(len(t0))
t1 = data[data['Species'] == 1]
t2 = data[data['Species'] == 2]

# 为了数据具有随机性 进行洗牌
t0 = t0.sample(len(t0),random_state=0)
t1 = t1.sample(len(t1),random_state=0)
t2 = t2.sample(len(t2),random_state=0)

#构建训练集和测试集
train_X = pd.concat([t0.iloc[:40,:-1],t1.iloc[:40,:-1],t2.iloc[:40,:-1]],axis=0)
train_y = pd.concat([t0.iloc[:40,:-1],t1.iloc[:40,:-1],t2.iloc[:40,:-1]],axis=0)
test_X = pd.concat([t0.iloc[40:,:-1],t1.iloc[40:,:-1],t2.iloc[40:,:-1]],axis=0)
test_y = pd.concat([t0.iloc[40:,:-1],t1.iloc[40:,:-1],t2.iloc[40:,:-1]],axis=0)

# 创建KNN对象 进行训练和测试
knn = KNN(k=3)
# 进行训练
knn.fit(train_X,train_y)
# 进行测试 获得测试结果
result = knn.predict(test_X)
print(result)

print(np.sum(result==test_y))

print(np.sum(result==test_y)/len(result))

KNN可视化

import matplotlib as mpl
import matplotlib.pyplot as plt

# 默认情况下 matplotlib不支持中文显示,我们需要进行一下设置
# 设置字体为黑体 以支持中文显示
mpl.rcParams['font.family'] = 'SimHei'
# 设置在中文字体时   能够正常的显示负号(-)
mpl.rcParams['axes.unicode_minus'] = False

# {'setosa':0,'versicolor':1,'virginica':2}

# 设置画布的大小
plt.figure(10,10)
# 绘制训练散点图
plt.scatter(x=t0['Sepal.Length '][:40],y=t0['Petal.Length'],color='r',label='virginica')
plt.scatter(x=t1['Sepal.Length '][:40],y=t1['Petal.Length'],color='g',label='setosa')
plt.scatter(x=t2['Sepal.Length '][:40],y=t2['Petal.Length'],color='b',label='versicolor')

# 绘制测试集数据
right = test_X[result == test_y]
wrong = test_X[result != test_y]
plt.scatter(x=right['Sepal.Length '],y=right['Petal.Length'],color='c',marker='s',lable='right' )
plt.scatter(x=wrong['Sepal.Length '],y=wrong['Petal.Length'],color='a',marker='>',lable='wrong' )
plt.xlabel('花萼长度')
plt.ylabel('花瓣长度')
plt.title('KNN分类结果显示')
plt.legend(loc='best')
plt.show()

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

gm0012

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值