加州房价篇 (二) : 处理数据

现在是时候对数据动一动手脚了

运行本篇文章代码时必须先运行加州房价篇 (一) : 了解数据中的所有代码

在正式处理数据之前,我们需要先把median_house_value(地区房屋均价)这一特征摘出来,这是我们的目标,无需处理

housing_target = housing["median_house_value"].copy()
housing = housing.drop("median_house_value", axis=1)

处理数据

还记得我们在加州房价篇 (一) : 了解数据中一开始就遇到的两个数据自身的问题吗

我们再看一下

housing.info()

输出:
在这里插入图片描述

4和9号特征,数据缺失和非数字数据

解决数据缺失

一般来说,我们有三种方法来处理这个问题

  1. 放弃这些有数据缺失的地区,207个
  2. 放弃这个特征(total_bedrooms)
  3. 用一些数字把缺失填补好(中位数,平均数,众数)

选择1:

housing.dropna(subset=["total_bedrooms"]) 

选择2:

housing.drop("total_bedrooms", axis=1) 

选择3:

median = housing["total_bedrooms"].median() #中位数
housing["total_bedrooms"].fillna(median, inplace=True)

我们更倾向于做数据损失更少的处理,显然选择3更好,执行选择3的代码

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值