【机器学习】python借助pandas及matplotlib将输入数据可视化，并计算相关性

颢师傅

已于 2022-08-19 05:40:48 修改

阅读量779

点赞数 1

于 2022-08-13 20:00:00 首次发布

本文链接：https://blog.csdn.net/hh1357102/article/details/126314317

版权

python 同时被 3 个专栏收录

89 篇文章 11 订阅

订阅专栏

机器学习

36 篇文章 5 订阅

订阅专栏

pandas

6 篇文章 1 订阅

订阅专栏

import os

HOUSING_PATH = os.path.join("datasets", "housing")
import pandas as pd

def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)
housing=load_housing_data()
import numpy as np
housing["income_cat"] = pd.cut(housing["median_income"],
                               bins=[0., 1.5, 3.0, 4.5, 6., np.inf],
                               labels=[1, 2, 3, 4, 5])
from sklearn.model_selection import StratifiedShuffleSplit

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(housing, housing["income_cat"]):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]
housing = strat_train_set.copy()

用图像找出数据之间的关系：

#直观查看任两个变量间的相关关系：其中增加的透明度属性可分辨数据分布的密集程度
housing.plot(kind="scatter", x="longitude", y="latitude",alpha=0.1)
print(type(housing))

在这里插入图片描述

import matplotlib.pyplot as plt
#每个圆的半径大小代表了每个区域的人口数量（选项s），颜色代表价格（选项c）。
#我们使用一个名叫jet的预定义颜色表（选项cmap）来进行可视化，颜色范围从蓝（低）到红（高）
housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4,
             s=housing["population"]/100, label="population", figsize=(10,7),
             c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True,
             sharex=False)
plt.legend()

在这里插入图片描述
#输出线性相关度矩阵：

corr_matrix = housing.corr()
#找出房屋均价列与其他列的相关性（线性）并降序排序
corr_matrix["median_house_value"].sort_values(ascending=False)

在这里插入图片描述

from pandas.plotting import scatter_matrix
#利用pandas一次性画出多图，变量两两间的相对关系
#如房价中位数与收入中位数间线性关系较强，有时为了拟合出较好的线性关系，也可以舍弃部分看起来非线性的数据点
attributes = ["median_house_value", "median_income", "total_rooms",
              "housing_median_age"]
scatter_matrix(housing[attributes], figsize=(12, 8))

在这里插入图片描述

颢师傅

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
【机器学习】python借助pandas及matplotlib将输入数据可视化，并计算相关性

数据准备：详见：【机器学习】python借助pandas及scikit-learn使用三种方法分割训练集及测试集用图像找出数据之间的关系：#输出线性相关度矩阵：
复制链接

扫一扫