使用pandas清洗数据

Preview

导入pandas/numpy库之后,

先设定data(此例中data为titanic)

titanic=pd.read_csv('train.csv')

1.缺失值观察

1.1是否有缺失值 #结果为TRUE代表有缺失值

data.isnull().any()

print(data.isnull().any())

titanic.isnull().any()

1.2统计列缺失值个数

Data.isnull().sum()

Print(Data.isnull().sum())

titanic.isnull().sum()

1.3统计个别列的缺失值数量/以age为例

df.Age #查看Age列数据

#先看有没有缺失值?

titanic.Age.isnull().any() #查看特定列缺失值/true指有缺失值——故Age列有缺失值

#缺失值是多少呢?

titanic.Age.isnull().sum()

2.对缺失值进行处理

2.1 删除

#dropna

df.dropna(how=’all’) #删除全是缺失值的行/列

df.dropna(how=’any’) #删除含缺失值的行/列

2.2 填充

#fillna

df.fillna(value=0)  #用0填充

df.fillna(method=’pad’) #向后填充:向下复制一样的值

df.fillna(method=’backfill’) #向前填充:向上复制一样的值

3.重复值

3.1 查看重复值

df.duplicated() #查看全部

df.price.duplicated()  #查看price列

df.duplicated(subset = ['price','cnt'])  #查看多列

3.2 处理重复值

df.drop_duplicates(subset = ['price','cnt'],keep='last',inplace=True)

#subset限制特定列,否则默认全部列

#keep 保留

#inplace=true保留副本 inplace=false直接修改

4. 将前面清洗的数据保存为csv格式

titanic.to_csv('C:\\Users\\71403\\Desktop\\titanic\\train.csv',index=False,sep=',')

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值