加州房价篇 (二) : 处理数据

最新推荐文章于 2025-03-11 10:55:52 发布

大扬笔谈录

最新推荐文章于 2025-03-11 10:55:52 发布

阅读量668

点赞数

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/Fluencity/article/details/115626636

版权

本文介绍了如何处理加州房价数据中的缺失值和非数字数据。选择了用众数填充数据缺失的方法，并使用one-hot编码解决类别特征问题。接着进行了特征缩放，确保所有特征对模型的影响更加均衡，为后续的模型训练和预测做好准备。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

现在是时候对数据动一动手脚了

运行本篇文章代码时必须先运行加州房价篇 (一) : 了解数据中的所有代码

在正式处理数据之前,我们需要先把median_house_value(地区房屋均价)这一特征摘出来，这是我们的目标，无需处理

housing_target = housing["median_house_value"].copy()
housing = housing.drop("median_house_value", axis=1)

处理数据

还记得我们在加州房价篇 (一) : 了解数据中一开始就遇到的两个数据自身的问题吗

我们再看一下

housing.info()

输出：
在这里插入图片描述

4和9号特征，数据缺失和非数字数据

解决数据缺失

一般来说，我们有三种方法来处理这个问题

放弃这些有数据缺失的地区，207个
放弃这个特征(total_bedrooms)
用一些数字把缺失填补好(中位数，平均数，众数)

选择1：

housing.dropna(subset=["total_bedrooms"])

选择2:

housing.drop("total_bedrooms", axis=1)

选择3：

median = housing["total_bedrooms"].median() #中位数
housing["total_bedrooms"].fillna(median, inplace=True)

我们更倾向于做数据损失更少的处理，显然选择3

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大扬笔谈录

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

AI：26-【数据预处理】基于Pandas的数据预处理技术【california_housing加州房价数据集】_后9个任务

一键难忘的博客

12-26

2944

本次实验收获非常的大，学习到了检测是否有空值，对数据集做中心化度量，对数据集做离散化度量，包括散点图，分位数图、分位数-分位数图、包括题目要求的所有选做题目，包括局部回归的理解和使用等等，都有了较深刻的理解和运用。

利用XGBoost预测房价：基于历史数据的精准分析

weixin_47518190的博客

10-10

1012

最近没学习的原因是因为前一个月在适应新的城市和工作……今天来在下班后碎片化学习一下XGBoost。；好处是汉化，但是只有实操没有深入原理讲解，很可能仅知其然。有关于这一经典赛题的讲解有很多，可crosscheck。如比较喜欢的有知乎-布里斯托robotics er写的这篇，很neat且比较细致。教程使用过程中，代码直接拷入导致了①空格格式问题；②字符报错问题，这些都需要去word中进行字符微调、甚至教程搜索解决哈。有一些疑似是因为隐藏字符导致错误，这个你都看不出的。

参与评论您还未登录，请先登录后发表或查看评论

加州房价预测模型

小哲数据

12-08

3085

import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib %matplotlib inline %config InlineBackend.figure_format = 'retina' Using matplotlib backend: MacOSX 读取数据集并观察数据特点字段...

加州房价篇 (一) : 了解数据

Fluencity的博客

04-12

1893

加州房价篇 (一) : 了解数据让我们先从加利福尼亚州的房价说起如果没有接触过机器学习，需要先进行环境配置在每次开始之前都需要先运行以下代码,不报错方可继续 # Python 的版本需要大于3.5 import sys assert sys.version_info >= (3, 5) # Scikit-Learn的版本需要大于0.20 import sklearn assert sklearn.__version__ >= "0.20" import numpy as n

Python的Scikit-learn库实现房价预测模型（一）

最新发布

我是赛博AI Lewis

03-11

568

这个案例覆盖了数据可视化、特征工程和回归模型对比，可与之前的分类项目形成互补学习。建议重点关注“特征重要性分析“和“预测误差分布“的解读！根据加州房屋的地理位置、房龄、房间数量等特征，预测该区域房价中位数。注：通过Python编程语言实现“机器学习”项目教程案例。：输出为连续值，使用MSE、R²作为评估指标。：随机森林自动处理非线性关系，特征重要性直观。：经度/纬度可揭示区域房价分布模式。：线性模型对特征尺度敏感，需使用。用PCA降维至2维后重新训练模型。尝试添加新特征（如房间总数=优化随机森林的超参数。

【基础知识】9、加州房价预测

呆呆的猫的博客

09-07

4579

一、项目概览利用加州普查数据，建立一个加州房价模型。目标：模型利用该数据进行学习，然后根据其他指标，预测任何街区的房价中位数二、划定问题建立模型不可能是最终目标，而是公司的受益情况，这决定了如何划分问题，选择什么算法，评估模型的指标和微调等等你建立的模型的输出（一个区的房价中位数）会传递给另一个机器学习系统，也有其他信号传入该系统，从而确定该地区是否值得投资。设计系统：...

基于简单MLP模型的加州房价预测

Nnn_python的博客

11-06

3402

机器学习是当前热度非常高的领域，可以对房价数据进行预测，具有很高的研究价值。为了更好地学习机器学习，将理论付诸于实践，本文从加州房价预测实验入手，提出了基于简单MLP的房价预测模型方法研究。

加利福尼亚房价预测实验

m0_62500122的博客

11-27

1966

其实从数据库的角度来说，数据离散化也可以实现概念分层，比如用到的数据集中有经纬度属性，每个经纬度表示一个街区的真实地理位置，如果有辅助数据的话，我们可以合并邻近的街区为社区，这样经纬度属性就会变为社区属性，还可以将社区进一步合并为城市，这样经纬度属性就生成了城市名称属性。对训练集分别随机抽取10%，30%，50%和80%的样本作为训练子集，利用训练子集训练线性回归模型，然后在测试集上预测房价属性。属性是否需要离散化要根据数据挖掘方法来定，此次作业使用线性回归模型，需要连续值属性，并不做离散化处理。

数字识别篇 (一) : 了解数据和处理数据

Fluencity的博客

04-16

2442

房地产不太景气在每次开始之前都需要先运行以下代码,不报错方可继续 # Python 的版本需要大于3.5 import sys assert sys.version_info >= (3, 5) # Scikit-Learn的版本需要大于0.20 import sklearn assert sklearn.__version__ >= "0.20" import numpy as np import os #绘图设置 %matplotlib inline import matp

cap 2 加州房价预测

zhhy236400的博客

07-03

276

https://www.cnblogs.com/zhhy236400/p/11111180.html

加州住房：加州房屋价格的预测分析和EDA

02-15

加州住房来源此数据集是可从（波尔图大学）获得的“加利福尼亚住房”数据集的修改版本。 LuísTorgo从StatLib存储库（现已关闭）中获取了它。数据集也可以从StatLib镜像下载。该数据集出现在1997年Pace，R.Kelley和Ronald Barry题为“稀疏空间自回归”的论文中，该论文发表在《统计和概率快报》杂志上。他们使用1990年加利福尼亚人口普查数据构建了该数据。每个普查区组包含一行。街区小组是美国人口普查局发布样本数据的最小地理单位（街区小组通常人口为600至3,000人）。调整此目录中的数据集几乎与原始数据集相同，但有两个区别：从total_bedrooms列中随机删除了207个值，因此我们可以讨论如何处理丢失的数据。添加了另一个名为ocean_proximity类别属性，该属性（非常粗略地）指示每个块组是在海洋附近，在湾区附近，在内陆还

加州住房价格-数据集

03-29

加州住房价格

机器学习入门实战加州房价预测

赵广陆

06-18

3302

目录 1 快速搭建运行环境 2 快速构建项目 2.1 导入训练集 2.2 安装函数库 2.2.1 安装numpy 2.2.2 安装pandas 2.3 构建特征集和标签 2.4 导入数据集拆分工具sklearn 2.5 导入线性回归算法模型 2.6 进行预测 2.7 精准度计算 3 导入matplotlib画图库 1 快速搭建运行环境我这里比较懒是全是一键安装的直接使用vscode插件进行部署，没有去搭建jupyter notebook，不过也比较简单后续我会出相关文章进行搭建。......

加州房价预测项目详细笔记（Regression）——（3）准备数据（数据的预处理）

m0_52974810的博客

07-11

1169

参考内容《机器学习实战》原作者github：https://github.com/ageron/handson-ml 此部分建议编写函数来执行：函数可以在任何数据集上方便地重现这些转换逐渐建立的一个转换函数库，可以在以后的项目中重复使用可以在实时系统（live system）中使用这些函数转换数据后，再喂给算法可以轻易地尝试多种数据转换，找到效果最好的转换的组合目录一、数据清理二、处理文本和分类属性三、自定义转换器四、特征缩放

机器学习入门实例-加州房价预测-2（数据整理）

陆沙的博客

04-14

1566

矩阵不是很方便观察，可以直接排序median_house_value列，可以看出median_house_value与median_income的相关性挺大的。可以看到rooms_per_household比total_rooms和households的相关性都要高一点，bedrooms_per_room也是，但是population_per_household反而变差了，大概是不适合这种特征组合方式。当然，如果不组装pipeline，只是单独调用的话，这两点可以忽略掉。

机器学习入门实例-加州房价预测-3（选择与训练模型+调参）

陆沙的博客

04-17

774

param_grid表示要测试两组参数，第一组是n_estimators和max_features的组合，所以共有4 x 5 = 20种；由于scikit-learn的cross-validation用的是utility function（越大越好）而非cost function（越小越好），所以这里选用了负数的mse。k-fold cross-validation就是随机产生k个fold，每次选一个fold来评估效果，其他k-1个fold用来训练。可以看到，随机森林的效果好一点点。

机器学习入门实例-加州房价预测-1（数据准备与可视化）

陆沙的博客

04-12

1895

可以看到，total_bedrooms里有数据缺失，而ocean_proximity的类型是object。housing.describe()可以计算各个数值列的count，mean，std，min，25%、50%和75%（中位数）、max。但是要设置seed，因为如果不设置的话，每次运行得到的训练集不一样，时间长了整个训练集都是已知了，那测试集就失去意义了。但是，随机挑选的数据可以不够有代表性。换一种包含信息更多的方式：令散点的直径大小表示人口，颜色表示房价中位值。可以去github，也可以自动下载。

cap2 加州房价预测模型

weixin_30260399的博客

06-30

429

获取所需数据集： import os import pandas as pd import tarfile from six.moves import urllib DOWNLOAD_ROOT="https://raw.githubusercontent.com/ageron/handson-ml/master/" HOUSING_PATH="datasets/hous...

完整的机器学习_加州房价预测

芒果冰麦

04-14

5366

机器学习的主要步骤将问题框架化并且关注重点。获取并探索数据以洞悉数据。准备数据以更好地将基础数据模式暴露给机器学习算法。探索多种不同的模型并列出最好的那些。微调模型并将它们组合成一个很好的解决方案。展示你的解决方案。启动，监督并维护你的系统。将问题框架化并关注重点数据集是基于 1990 年加州普查的数据,数据包含每个街区组的人口、收入中位数、房价中位数等指标。街区组是美国调...