Python\u2014\u2014数据预处理代码示例1。导入标准库导入numpy尽可能npimport pltimport熊猫pd 2。导入数据集的数据集= _csv(数据(1). csv) # read_csv:读csv文件#创建一个包含所有自变量矩阵和一个向量的因变量# iloc意味着选择一个特定的行和列的数据集;逗号前意味着行,下面列;结肠意味着选择所有,没有冒号,这意味着选择列;值表示所选择的数据集的数据。X = [:,: 1]。值#选择数据,不要选择最后一列。y = (: 3)。值#选择数据,选择第三列数据的每一行3。缺失的数据从进口输入#数据挖掘和数据分析标准库,输入缺失数据处理#输入参数:missing_values缺失的数据,定义如何识别的实际数据,默认值:南;
轴= 0 = 1需要行输入=输入需要列(missing_values =\u2018南\u2019,策略=\u201C的意思是\u201D,轴= 0)输入= (X[: 1:3]) #配件fitX [: 1:3] = (X [: 1: 3]) 4。分类数据导入LabelEncoder OneHotEncoderlabelencoder_X = LabelEncoder () X (: 0) = labelencoder__transform (X [: 0]) onehotencoder = onehotencoder (categorical_features = [0]) _transform (X) .
将数据集分为训练集和测试集_selection进口train_test_splitX_train X_test, y_train y_test = train_test_split (X, y, test_ random_state = 0)# X_train(训练集的变量)这个词,X_test(变量的测试设置这个词),y_train(训练集)的因变量,y_test(训练集的因变量)#训练集的比例,在某些情况下也可以分配1\/3的数据给出了训练集;的比例train_size训练集# random_state决定随机数生成的方法,和数据是随机分配给训练集和测试集;当random_state是相同的,相同的训练集和测试集将获得6 Feature扩展#特性(两种方式:一是:标准化;
数据预处理模板(1)导入标准库(2)导入数据集(3)失踪,很少遇到分类(4)将数据集分为训练集和测试集(5)功能扩展,这在大多数情况下不需要,但功能扩展在某些情况下是必需的。以上是所有关于java的知识要点的总结与你共享这一次,每个人还可以找到相关文章下面的相关文章进行进一步的研究。谢谢你的阅读和支持。