K近邻值（KNN）小麦种类预测预测年收入是否大于50K美元癌症预测

最新推荐文章于 2020-12-06 23:03:39 发布

PyRookie

最新推荐文章于 2020-12-06 23:03:39 发布

阅读量2.8k

点赞数

分类专栏： K-近邻算法 python高级数据分析文章标签： k-近邻值 KNN 练习

本文链接：https://blog.csdn.net/pyrookie/article/details/81748646

版权

本文介绍了使用K近邻值（KNN）算法进行分类预测的三个实例：小麦种类预测、预测年收入是否大于50K美元以及癌症预测。详细讲述了数据预处理、模型训练及评估的步骤，包括数据导入、特征处理、模型构建、预测与准确性检查。

摘要由CSDN通过智能技术生成

知识点梳理：

小麦种类预测：
打乱分离集和结果集，源码办法
年收入预测：
样本字符串转数字
癌症预测：
打乱分离集和结果集自带函数，样本数据归一化

samples = pd.read_table('./data/wheats.tsv',header=None)
samples

samples.shape
(210, 8)    #共210个样本数据

samples = np.random.permutation(210)  #打乱210个样本的顺序，样本的值不变


samples.iloc[:,0:7]
data = samples.iloc[:,:-1]  # 从 最开始 到 最后的 最后的取不到 
target = samples[7]  # df直接传入索引 是对列的索引
target

训练集为190个之前的
测试集为190个之后的

X_train = data[:190]
y_train = target[:190]
# 测试数据
X_test = data[190:]
y_test = target[190:]

knn = KNeighborsClassifier(n_neighbors=13)  #测试得到n_neighbors = 13的测试准确率较大
knn.fit(X_train,y_train)

y_ = knn.predict(X_test)

knn.score(X_test,y_test)

0.9

df = pd.read_csv('./data/adults.csv')
df

df.shape
(32561, 15)    #共32561个样本数据

data = df.loc[:,['age','education','occupation','hours_per_week']]   #特征

target = df['salary']   #目标值

data
这里的数据类型为字符串，机器不能处理这些数据，我们应将这些数据转换为数字

将所有字符串的列，转换成相应的值让机器去学习

这里写图片描述

levels = data['education'].unique()
levels   #输出所有的不重复的种类

array(['Bachelors',

关注