02:数据清洗及特征处理

Task02:数据清洗及特征处理

导入numpy、pandas包和数据

import numpy as np
import pandas as pd
print(pd.__version__)  # 1.0.3

载入数据

df=pd.read_csv('train.csv')
df.head()

1、缺失值观察与处理

缺失值的处理方法

函数名描述
dropna根据每个标签的值是否缺失数据来筛选轴标签,并根据允许丢失的数据来确定阈值
fillna用某些值填充缺失的数据或使用插值的方法(‘ffill’,‘bfill’)
isnull返回表明那些是确实值的布尔值
notnullisnull的反函数

查看重复值:DataFrame的duplicated方法返回的是一个布尔值Series,默认保留第一个观测到的值。传入参数keep='last’将会返回最后一个。

df.duplicated().head()  # 查看是否有行重复
df.duplicated(['Name']).head()  # 查看Name列是否有重复值
# 0    False
# 1    False
# 2    False
# 3    False
# 4    False
# dtype: bool

删除重复值:drop_duplicates返回的是DataFrame,内容是 duplicated返回数组中为False的部分

df.drop_duplicates().head()  # 删除重复行默认保留第一个观测到的值。
df.drop_duplicates(['Name']).head()  # 删除名字相同的行

2、特征观察与处理

数值型特征:Survived ,Pclass, Age ,SibSp, Parch, Fare,其中Survived, Pclass为离散型数值特征,Age,SibSp, Parch, Fare为连续型数值特征。

文本型特征:Name, Sex, Cabin,Embarked, Ticket,其中Sex, Cabin, Embarked, Ticket为类别型文本特征,数值型特征一般可以直接用于模型的训练,但有时候为了模型的稳定性及鲁棒性会对连续变量进行离散化。文本型特征往往需要转换成数值型特征才能用于建模分析。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值