实现KNN算法&搭建人工神经网络ANN——第三次数据挖掘实验

最新推荐文章于 2024-05-10 11:24:49 发布

敲代码的小提琴手

最新推荐文章于 2024-05-10 11:24:49 发布

阅读量2.6k

点赞数 2

分类专栏：课堂笔记-数据挖掘与大数据分析文章标签：聚类 python 机器学习人工神经网络数据挖掘实验报告

嘿朋友谢谢你复制我的文章喜欢的话给点个赞交个朋友吧~

本文链接：https://blog.csdn.net/qq_45704942/article/details/115614236

版权

本次实验详细介绍了KNN算法的原理、优缺点及实现，强调了KNN对训练数据的依赖性。同时，探讨了搭建人工神经网络的基础知识，包括感知机和BP算法的应用。提供了实验代码供学习与参考。

摘要由CSDN通过智能技术生成

实验结果直接戳这里免费下载实验报告
（决策树算法的实验还没做做了之后再上传吧最近有点忙555）

1.KNN算法

即最邻近结点算法 / K均值聚类算法

1.1 KNN算法原理：

KNN属于lazy learning —— 不会对训练样本数据进行学习
对一个新数据计算它与训练集中数据的距离选择最短的k个作为邻居然后预测新数据的类别和k个邻居中一致性最多的所属类别。

1.2 KNN算法的优点

经典算法，简单、快速。
对处理大数据集，该算法是相对可伸缩和高效率的。

有新数据不用重新聚类了~所以是相对可伸缩的

1.3 KNN算法的缺点

必须事先给出k
对初始值敏感

不同初始值可能导致不同的结果

对于噪声数据和孤立点数据是敏感的
要求训练样本正确体现数据的真实分布

由于KNN的预测效果是强依赖于训练数据的，所以KNN不会对训练数据进行深入学习，只是单纯地考虑数据之间的距离。

所以一旦训练样本不能正确体现数据真实分布，预测就会不准确！

另外，训练数据如果不属于同一分布，也会导致预测不准确。

1.4 KNN的做法（目的）：

预测新数据的类别和k个邻居中一致性最多的所属类别。

1.5 编程实现

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt


class KNearestNeighbor(object):
    def __init__(self):
        pass

    def loadData(self, path):
        data = pd.read_csv(path, header=None)
        data.columns = ['sepal length', 'sepal width',
                        'petal length', 'petal width',
                        'species'] # 特征及类别名称
        X = data.iloc[0:150, 0:4].values
        y = data.iloc[0:150, 4].values

        # Iris-setosa 输出label用0表示
        y[y == 'Iris-setosa'] = 0
        # Iris-versicolor 输出label用1表示
        y[y == 'Iris-versicolor'] = 1
        # Iris-virginica 输出label用2表示
        y[y == 'Iris-virginica'] = 2

        # Iris - setosa 4个特征
        self.X_setosa, self.y_setosa = X[0:50], y[0:50]
        # Iris-versicolor 4个特征
        self.X_versicolor, self.y_versicolor = X[50:100], y[50:100]
        # Iris-virginica 4个特征
        self.X_virginica, self.y_virginica = X[100:150], y[100:150]
        # 训练集
        self.X_setosa_train = self.X_setosa[:30, :]
        self.y_setosa_train = self.y_setosa[:30]
        self.X_versicolor_train = self.X_versicolor[:30, :]
        self.y_versicolor_train = self.y_versicolor[:30]
        self.X_virginica_train = self.X_virginica[:30, :]
        self.y_virginica_train = self.y_virginica[:30]
        self.X_train = np.vstack([self.X_setosa_train, self.X_versicolor_train, self.X_virginica_train])
        self.y_train = np.hstack([self.y_setosa_train, self.y_versicolor_train, self.y_virginica_train])

        # 测试集
        self.X_setosa_test = self.X_setosa

最低0.47元/天解锁文章

敲代码的小提琴手

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
实现KNN算法&搭建人工神经网络ANN——第三次数据挖掘实验

1.KNN算法即最邻近结点算法 / K-MEANS算法 / K均值聚类算法1.1 KNN算法原理：KNN属于lazy learning —— 不会对训练样本数据进行学习对一个新数据计算它与训练集中数据的距离选择最短的k个作为邻居然后预测新数据的类别和k个邻居中一致性最多的所属类别。1.2 KNN算法的优点经典算法，简单、快速。对处理大数据集，该算法是相对可伸缩和高效率的。有新数据不用重新聚类了~所以是相对可伸缩的1.3 KNN算法的缺点必须事先给出k对初始值敏感不
复制链接

扫一扫

专栏目录