数据集的预处理

最新推荐文章于 2024-07-24 18:14:54 发布

Cvjark

最新推荐文章于 2024-07-24 18:14:54 发布

阅读量7.9k

点赞数 1

文章标签：数据预处理机器学习

本文链接：https://blog.csdn.net/weixin_43084928/article/details/82497380

版权

python进行机器学习的第一步——数据预处理

写文章的目的是为了巩固所学，和方便回顾查找。如有讲错的地方，欢迎指出，谢谢。

载入数据：（这里使用了泰坦尼克的数据集）

import pandas as pd
dataset = pd.read_csv('train.csv')
x = dataset.iloc[:,[2,4,5]].values  #采取了数据集中的舱等级，性别，年龄作为演示特征值
y = dataset.iloc[:,1].values  #存活为标记（因变量）
print(x)
print(y)

输出结果发现x存在部分值的缺失以及非数值型的值。(python中缺失值用nan标记）

#x的输出结果
[[3 'male' 22.0]
 [1 'female' 38.0]
 [3 'female' 26.0]
 ...
 [3 'female' nan]
 [1 'male'

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Cvjark

关注关注

1
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
数据集的预处理

python进行机器学习的第一步——数据预处理写文章的目的是为了巩固所学，和方便回顾查找。如有讲错的地方，欢迎指出，谢谢。载入数据：（这里使用了泰坦尼克的数据集）import pandas as pddataset = pd.read_csv('train.csv')x = dataset.iloc[:,[2,4,5]].values #采取了数据集中的舱等级，性别，年龄...
复制链接

扫一扫