基于python的可视化分析_Python数据的可视化分析,python

本文详细介绍了如何使用Python进行数据可视化分析,包括单变量可视化(如直方图、密度图、箱型图、提琴图)和多变量可视化(如相关矩阵、散点图、散点图矩阵),以及如何处理数值和类别特征。此外,还探讨了降维方法如PCA和t-SNE在高维数据可视化中的应用。
摘要由CSDN通过智能技术生成

python数据可视化分析

a78ed9c8b4f82c48348d02c53d466b21.png

首先载入必要的库

import warnings

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

sns.set()

warnings.filterwarnings('ignore')

单变量可视化

单变量(univariate)分析一次只关注一个变量。当我们独立地分析一个特征时,通常最关心的是该特征值的分布情况。下面考虑不同统计类型的变量,以及相应的可视化工具。

一、数值特征

数量特征(quantitative feature)的值为有序数值。这些值可能是离散的,例如整数,也可能是连续的,例如实数。

1、直方图:hist

直方图依照相等的间隔将值分组为柱,它的形状可能包含了数据分布的一些信息,如高斯分布、指数分布等。当分布总体呈现规律性,但有个别异常值时,你可以通过直方图辨认出来。

features = [‘列名1’, ‘列名2’]

df[features].hist(figsize=(10, 4))

其中figsize变量是指每张图片尺寸大小。

8b8c99c8443a579e3af6b493f85dd1a1.png

2、密度图:plot

密度图(density plots),也叫核密度图( kernel density estimate,KDE)是理解数值变量分布的另一个方法。它可以看成是直方图平滑( smoothed )的版本。相比直方图,它的主要优势是不依赖于柱的尺寸,更加清晰。

features = [‘列名1’, ‘列名2’]

df[features].plot(kind=‘density’, subplots=True, layout=(1, 2),sharex=False, figsize=(10, 4), legend=False, title=features)

其中kind=‘density表示的是类型是密度图,layout=(1, 2)表示呈现一行两列图的格式,sharex=False表示不共享X轴,figsize变量是指每张图片尺寸大小。

e364b5452bffb061a03093358d566e97.png

当然,还可以使用 seaborn 的 distplot() 方法观测数值变量的分布。例如,Total day minutes 每日通话时长 的分布。默认情况下,该方法将同时显示直方图和密度图。

sns.distplot(df[‘列名’])

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值