import pandas as pd import matplotlib.pyplot as plt import numpy as np #加载数据 def inspect_data(file_root): dataframe=pd.read_csv(file_root) print("数据基本信息:") print(dataframe.info()) print("数据有%i行,%i列"%(dataframe.shape[0],dataframe.shape[1])) print("数据预览:") print(dataframe.head()) return dataframe #缺失数据处理 def processing_missing_data(dataframe): if dataframe.isnull().values.any(): dataframe=dataframe.dropna() #dataframe=dataframe.fillna(0) return dataframe #加载数据 dataframe=pd.read_csv("H:/pythonfigure/voice.csv") #处理缺失数据 dataframe=processing_missing_data(dataframe) #数据转化 dataframe.replace("male",1,inplace=True) dataframe.replace("female",0,inplace=True) #数据准备 x=dataframe.ix[:,:-1] y=dataframe.ix[:,-1] #特征归一化 from sklearn import preprocessing x=preprocessing.scale(x) #分割训练集和测试集 from sklearn.model_selection import train_test_spli
用交叉验证调整KNN模型的参数
最新推荐文章于 2024-07-09 17:43:26 发布
该博客介绍了一种通过交叉验证来调整KNN(K最近邻)模型参数的方法。首先,数据从CSV文件加载并处理缺失值,然后将类别特征转化为数值。接着进行特征归一化,数据分为训练集和测试集。使用KRange(1, 31)进行遍历,通过10折交叉验证计算不同k值下模型的平均准确性,并找出最优的k值。最终,利用最优k值训练KNN模型并评估其在测试集上的准确率。"
50360148,3740683,Spark Shuffle内存管理与优化,"['Spark', '内存优化', '分布式计算']
摘要由CSDN通过智能技术生成