第L4周：机器学习｜K-邻近算法模型学习记录

最新推荐文章于 2024-09-28 21:53:47 发布

m0_74907726

最新推荐文章于 2024-09-28 21:53:47 发布

阅读量401

点赞数 4

文章标签：机器学习 k-近邻算法

本文链接：https://blog.csdn.net/m0_74907726/article/details/141969556

版权

第L4周：机器学习｜K-邻近算法模型学习记录

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊

#问题背景

海伦一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的人选，但她没有从中找到喜欢的人。经过一番总结，她发现曾交往过三种类型的人：

● ①不喜欢的人

● ②魅力一般的人

● ③极具魅力的人

她现在总结好的数据中（即训练集）包含三种特征：

● ①每年获得的飞行常客里程数

● ②玩视频游戏所耗时间百分比

● ③每周消费的冰淇淋公升数

她希望根据现有的数据来判断一个陌生男人会被她归到哪一类。

#K-近邻算法模型代码实现

1.导入数据

数据标签详解：

● 0：每年获得的飞行常客里程数

● 1：玩视频游戏所耗时间百分比

● 2：每周消费的冰淇淋公升数

● 3：人物类别（不喜欢的人、魅力一般的人、极具魅力的人）

import pandas as pd

data=pd.read_table(r"E:\文件\python学习\K同学啊 365\数据\datingTestSet2.txt",
                   sep='\t',
                   header=None)
#sep='\t'告诉read_table()函数，它应该按照制表符来分割每一行的数据
#header=None表示文件中没有列标题行，因此pandas在读取数据时会为DataFrame的列自动生成默认的列名（通常是整数，从0开始）

data.head()

	0	1	2	3
0	40920	8.326976	0.953952	3
1	14488	7.153469	1.673904	2
2	26052	1.441871	0.805124	1
3	75136	13.147394	0.428964	1
4	38344	1.669788	0.134296	1

X = data.iloc[:,:3]
y = data.iloc[:,3]

2.划分训练集和测试集

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.25, 
                                                    random_state=3)

3.K-邻近算法模型

from sklearn.neighbors import KNeighborsClassifier

knc = KNeighborsClassifier()
knc.fit(X_train, y_train)

4.结果预测

data["预测结果"] = knc.predict(data.iloc[:,:3])
data.head(5)

4.模型评分



```python
scoreK = knc.score(X_test,y_test)

print(scoreK)

0.796

#总结

k-近邻算法：用于分类和回归

基本思想：给定一个待分类样本，找出与其距离最近的k个训练样本（邻居），然后通过这k个邻居的类别来决定待分类样本的类别，即这K个样本的多数属于某个类，就把该输入样本分类到这个类中。（少数服从多数）

三要素：距离度量、k值选择和分类决策规则

算法流程：

1.选择参数k：选择k个邻居

2.计算距离：对待预测样本和训练样本中的每一个样本计算距离。有欧氏距离、曼哈顿距离等

3.选择k个最近的邻居：从训练样本中选出与待预测样本距离最近的k个样本

4.计算预测值：在分类任务中，选择k个邻居中出现最多的类别作为结果。在回归任务中，通过取k个邻居的平均值作为预测结果

m0_74907726

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫