机器学习之k-近邻算法

最新推荐文章于 2021-05-30 18:54:41 发布

Charles_TheGod

最新推荐文章于 2021-05-30 18:54:41 发布

阅读量488

点赞数

分类专栏：机器学习文章标签：机器学习 k-近邻算法

本文链接：https://blog.csdn.net/charles_thegod/article/details/84383429

版权

机器学习专栏收录该内容

9 篇文章 2 订阅

订阅专栏

? K-近邻算法

K Nearest Neighbor算法又叫KNN算法，这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法

1️⃣、什么是k-近邻算法

定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别

2️⃣、相似度：就是指两个点之间的距离

①，欧氏距离
$\sqrt{\sum_i^n (a_i-b_i)^2}$

3️⃣、电影类型分析

在这里插入图片描述
①、目标值：电影类型，特征值：打斗镜头，接吻镜头

k=1,爱情片[爱情片] 选取一个样本

k=2,爱情片[爱情片，爱情片] 选取两个样本

k=3,爱情片[爱情片，爱情片，爱情片] 选取三个样本

k=4,爱情片[爱情片，爱情片，爱情片，动作片] 。。。。。。

k=6,[爱情片，爱情片，爱情片，动作片，动作片，动作片] 。。。。。。。

注：对于这个样本来说

k需要人指定，k是一个超参数，更多是依靠人自身的经验
k取很大值，受到样本均衡的影响
k取很小值，容易受到异常点的影响

4️⃣、 K-近邻算法API

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)
n_neighbors：int,可选（默认= 5），k_neighbors查询默认使用的邻居数
algorithm：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}，可选用于计算最近邻居的算法：‘ball_tree’将会使用 BallTree，‘kd_tree’将使用 KDTree。‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。 (不同实现方式影响效率)

5️⃣、鸢尾花数据

步骤分析
- 获取数据集与分割数据集
- 特征工程：标准化
- 模型训练评估

? 案例：鸢尾花种类预测代码实现

# 获取数据集，加载鸢尾花数据集
from sklearn.datasets import load_iris
# 分割数据集
from sklearn.model_selection import train_test_split
# 特征工程：标准化
from sklearn.preprocessing import StandardScaler
# K-近邻算法API
from sklearn.neighbors import KNeighborsClassifier


def knn_demo():
	'''knn算法对鸢尾花数据集分类演示'''
    # ? 获取数据集
    iris = load_iris()
    
    
    # ? 分割数据集,参数(特征值，目标值，划分比例)
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=8)
    
    
    # ? 特征工程：标准化
    # ✨ 实例化一个转换器类
    transfer = StandardScaler()
    # ? 传入数据调用fit_transform进行转换
    x_train = transfer.fit_transform(x_train)
    # ? 因为来自于同一个数据集，所以用上一个的标注差就行，因为均值，标准差是一样的。
    x_test = transfer.transform(x_test)
    
    # ? 模型训练和评估
    # ? 实例化一个估计器
    estimator = KNeighborsClassifier()
    # ? 传入训练数据集，进行机器学习
    estimator.fit(x_train, y_train)
    
    
    
    # ? 模型评估
    # ? 方法1：比较真实值和预测值, y_predict预测值
    y_predict = estimator.predict(x_test)
    print('预测值为:\n', y_predict)
    print('比较真实值与预测值结果为:\n', y_predict == y_test)
    # ? 方法2：直接计算模型准确率
	print('模型准确率为:\n', estimator.score(x_test, y_test))
    return None

# ✋ 调用函数输出结果。
knn_demo()