机器学习100天-数据预处理 [代码实现细节分析]

原始数据: 在Data.csv文件中我们有如下数据:
在这里插入图片描述
统计了10个人的基本信息:国籍,年龄,工资 以及他们对于某件商品是否购买的情况。

代码实现细节分析:
(1)导入基本python包

import numpy as np
import pandas as pd

(2)导入数据,读取.csv文件中的数据

dataset = pd.read_csv('Data.csv')  #读取指定.csv文件,返回DataFrame
X = dataset.iloc[ : , : -1].values  #获取指定索引的行列数据 iloc = “index location”
Y = dataset.iloc[ : , 3].values

结果显示: 表格中为空的数据,在X中使用nan表示
在这里插入图片描述
(3)处理丢失数据,将1,2列中 nan 的数据使用该列中所有已知数的平均值代替

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值