机器学习-KNN算法题目

最新推荐文章于 2024-08-15 21:36:27 发布

比木白

最新推荐文章于 2024-08-15 21:36:27 发布

阅读量2.5k

点赞数

分类专栏：机器学习文章标签： python 机器学习

本文链接：https://blog.csdn.net/J_kaiz/article/details/103546282

版权

本文使用cancer_train.csv数据集，包含30个特征和500位乳腺癌病人信息，通过KNN算法建立模型。在选择k=3时，模型表现出最佳交叉验证效果，实现了较高的预测准确率和泛化能力，最终模型的准确率达到95%。但在交叉验证中需注意，折数cv不应超过每个类样本数量，以避免错误。

摘要由CSDN通过智能技术生成

1.现有数据集“cancer_train.csv”，记录了 500 位乳腺癌问诊病人的病灶造影照片的数据，一共 30 个特征，比如“平均半径”代表病灶中心点离边界的平均距离。最后一列为标签， 1 代表阳性，说明恶性程度比较高， 0 代表阴性。请利用这份数据简单建立一个KNN模型，并评估预测结果的准确率。
在这里插入图片描述

# 导入KNN分类器
from sklearn.neighbors import KNeighborsClassifier
# 划分训练集与测试集
from sklearn.model_selection import train_test_split
# k折交叉验证
from sklearn.model_selection import cross_val_score as CVS
# 归一化
from sklearn.preprocessing import MinMaxScaler as mms

# 导入数据
cancer_train=pd.read_csv(r"cancer_train.csv",index_col=0)

# 提取特征矩阵
X = cancer_train.iloc[:,:-1