Kaggle房价预测：数据探索——练习

最新推荐文章于 2024-07-23 13:00:29 发布

qilixuening

最新推荐文章于 2024-07-23 13:00:29 发布

阅读量8k

点赞数 6

分类专栏：自学练习文章标签： Kaggle Pandas Seaborn 房价预测数据探索

本文链接：https://blog.csdn.net/qilixuening/article/details/75151026

版权

这篇博客主要探讨Kaggle房价预测问题的数据探索过程。使用Pandas和Seaborn库，作者分析了数据集的特征，包括查看数据布局、统计信息、直方图、散点图和相关性。通过观察，发现房价分布不符合正态分布，并展示了如何通过散点图和箱形图揭示数值型变量的有序性。此外，还介绍了如何绘制特征之间的关系矩阵图和协方差矩阵，以发现高度相关的特征。

摘要由CSDN通过智能技术生成

主要借鉴了Kaggle基础问题——房价预测的两篇教程Comprehensive data exploration with Python和House Prices EDA并进行总结。

本篇，主要进行数据探索，对数据的基本特征有一个全局的大致了解。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split
import seaborn as sns
from scipy.stats import norm
from scipy import stats
%matplotlib inline

首先，我们拿到了数据集的csv文件，可以直接利用pandas导入得到DataFrame数据：

df_train = pd.read_csv(r'E:\kaggle\house_price_regression\train.csv')

与 numpy 的ndarray数据相比，DataFrame数据自带有行列信息，且有很多便捷的方法可以直接进行快速分析。

例如，可以查看数据的基本布局信息。

df_train.head()  # 可以查看（默认）前5行数据信息
# df_train.tail()  # 可以查看后10行数据信息

	Id	MSSubClass	MSZoning	LotFrontage	LotArea	Street	Alley	LotShape	LandContour	Utilities	…	PoolQC	Fence	MiscFeature	MoSold	YrSold	SaleType	SaleCondition	SalePrice
0	1	60	RL	65.0	8450	Pave	NaN	Reg	Lvl	AllPub	…	NaN	NaN	NaN	2	2008	WD	Normal	208500
1	2	20	RL	80.0	9600	Pave	NaN	Reg	Lvl	AllPub	…	NaN	NaN	NaN	5	2007	WD	Normal	181500
2	3	60	RL	68.0	11250	Pave	NaN	IR1	Lvl	AllPub	…	NaN	NaN	NaN	9	2008	WD	Normal	223500
3	4	70	RL	60.0	9550	Pave	NaN	IR1	Lvl	AllPub	…	NaN	NaN	NaN	2	2006	WD	Abnorml	140000
4	5	60	RL	84.0	14260	Pave	NaN	IR1	Lvl	AllPub	…	NaN	NaN	NaN	12	2008	WD	Normal	250000

5 rows × 81 columns

由上表可见，数据共有81列，我们可以查看这些特征的具体名称：

df_train.column  # 查看各个特征的具体名称

Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street', 'Alley', 'LotShape', &#

最低0.47元/天解锁文章

qilixuening

关注

6
点赞
踩
42

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录