加州房价篇 (二) : 处理数据

本文介绍了如何处理加州房价数据中的缺失值和非数字数据。选择了用众数填充数据缺失的方法,并使用one-hot编码解决类别特征问题。接着进行了特征缩放,确保所有特征对模型的影响更加均衡,为后续的模型训练和预测做好准备。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

现在是时候对数据动一动手脚了

运行本篇文章代码时必须先运行加州房价篇 (一) : 了解数据中的所有代码

在正式处理数据之前,我们需要先把median_house_value(地区房屋均价)这一特征摘出来,这是我们的目标,无需处理

housing_target = housing["median_house_value"].copy()
housing = housing.drop("median_house_value", axis=1)

处理数据

还记得我们在加州房价篇 (一) : 了解数据中一开始就遇到的两个数据自身的问题吗

我们再看一下

housing.info()

输出:
在这里插入图片描述

4和9号特征,数据缺失和非数字数据

解决数据缺失

一般来说,我们有三种方法来处理这个问题

  1. 放弃这些有数据缺失的地区,207个
  2. 放弃这个特征(total_bedrooms)
  3. 用一些数字把缺失填补好(中位数,平均数,众数)

选择1:

housing.dropna(subset=["total_bedrooms"]) 

选择2:

housing.drop("total_bedrooms", axis=1) 

选择3:

median = housing["total_bedrooms"].median() #中位数
housing["total_bedrooms"].fillna(median, inplace=True)

我们更倾向于做数据损失更少的处理,显然选择3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值