Python统计模型探索性数据分析(EDA)系统(单变量-双变量-相关性-缺失值)

亚图跨际

已于 2022-07-07 11:19:33 修改

阅读量984

点赞数

分类专栏： Python 数据科学文章标签： python 数据分析

于 2022-07-07 10:45:49 首次发布

本文链接：https://blog.csdn.net/jiyotin/article/details/125654442

版权

Python 同时被 2 个专栏收录

360 篇文章 24 订阅

订阅专栏

数据科学

47 篇文章 2 订阅

订阅专栏

单变量分析

单变量分析旨在更深入地了解单个列。它创建该列的各种统计数据和可视化。例如，要深入了解
特征 year_built，要计算year_built 的最小值、最大值、不同计数、中值、方差，并创建一个箱线图来检查异常值，一个正常的 Q-Q 图将其分布与正态分布进行比较。

双变量分析

双变量分析是为了理解两列之间的关系（例如，一个特征和目标）。有许多可视化来促进理解。例如，要了解 year_built 和 price 之间的关系，创建一个散点图来检查它们是否具有线性关系，并创建一个 hexbin 图来检查价格在不同年份范围内的分布。

缺失值分析

数据集缺少值比没有更常见。数据科学家需要创建定制的可视化来理解缺失值。例如，可以创建一个条形图，描述每列中缺失值的数量，或者创建一个缺失谱图，以可视化哪些行的缺失值更多。

示例

import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style="whitegrid", color_codes=True)
sns.set(font_scale=1)

houses = pd.read_csv("house-prices/train.csv")
houses.head()

houses_test = pd.read_csv("house-prices/test.csv")
houses_test.head()

plot(houses)

数据相关性

plot_correlation(houses, "SalePrice")
plot_correlation(houses, "SalePrice", value_range=[0.5, 1])

热图

plot_correlation(houses)

源代码

参阅 - 亚图跨际

亚图跨际

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录