python数据预处理包括哪些内容_Python数据预处理实例详解

Python\u2014\u2014数据预处理代码示例1。导入标准库导入numpy尽可能npimport pltimport熊猫pd 2。导入数据集的数据集= _csv(数据(1). csv) # read_csv:读csv文件#创建一个包含所有自变量矩阵和一个向量的因变量# iloc意味着选择一个特定的行和列的数据集;逗号前意味着行,下面列;结肠意味着选择所有,没有冒号,这意味着选择列;值表示所选择的数据集的数据。X = [:,: 1]。值#选择数据,不要选择最后一列。y = (: 3)。值#选择数据,选择第三列数据的每一行3。缺失的数据从进口输入#数据挖掘和数据分析标准库,输入缺失数据处理#输入参数:missing_values缺失的数据,定义如何识别的实际数据,默认值:南;

轴= 0 = 1需要行输入=输入需要列(missing_values =\u2018南\u2019,策略=\u201C的意思是\u201D,轴= 0)输入= (X[: 1:3]) #配件fitX [: 1:3] = (X [: 1: 3]) 4。分类数据导入LabelEncoder OneHotEncoderlabelencoder_X = LabelEncoder () X (: 0) = labelencoder__transform (X [: 0]) onehotencoder = onehotencoder (categorical_features = [0]) _transform (X) .

将数据集分为训练集和测试集_selection进口train_test_splitX_train X_test, y_train y_test = train_test_split (X, y, test_ random_state = 0)# X_train(训练集的变量)这个词,X_test(变量的测试设置这个词),y_train(训练集)的因变量,y_test(训练集的因变量)#训练集的比例,在某些情况下也可以分配1\/3的数据给出了训练集;的比例train_size训练集# random_state决定随机数生成的方法,和数据是随机分配给训练集和测试集;当random_state是相同的,相同的训练集和测试集将获得6 Feature扩展#特性(两种方式:一是:标准化;

数据预处理模板(1)导入标准库(2)导入数据集(3)失踪,很少遇到分类(4)将数据集分为训练集和测试集(5)功能扩展,这在大多数情况下不需要,但功能扩展在某些情况下是必需的。以上是所有关于java的知识要点的总结与你共享这一次,每个人还可以找到相关文章下面的相关文章进行进一步的研究。谢谢你的阅读和支持。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值