直方图python_Python数据可视化的例子——直方图和核密度曲线

本文介绍了如何使用Python的matplotlib、pandas和seaborn模块绘制直方图和核密度图,以展示泰坦尼克号乘客的年龄分布。通过示例代码详细解释了各个模块的使用方法,并展示了如何结合直方图和核密度图以更好地理解数据分布。
摘要由CSDN通过智能技术生成

直方图一般用来观察数据的分布形态,横坐标代表数值的均匀分段,纵坐标代表每个段内的观测数量(频数)。一般直方图都会与核密度图搭配使用,目的是更加清晰地掌握数据的分布特征,下面将详细介绍该类型图形的绘制。

1.matplotlib模块

matplotlib模块中的hist函数就是用来绘制直方图的。关于该函数的语法及参数含义如下:

plt.hist(x, bins=10, range=None, normed=False,

weights=None, cumulative=False, bottom=None,

histtype='bar', align='mid', orientation='vertical',

rwidth=None, log=False, color=None,

label=None, stacked=False)

x:指定要绘制直方图的数据。

bins:指定直方图条形的个数。

range:指定直方图数据的上下界,默认包含绘图数据的最大值和最小值。

normed:是否将直方图的频数转换成频率。

weights:该参数可为每一个数据点设置权重。

cumulative:是否需要计算累计频数或频率。

bottom:可以为直方图的每个条形添加基准线,默认为0。

histtype:指定直方图的类型,默认为bar,除此之外,还有barstacked、step和stepfilled。

align:设置条形边界值的对齐方式,默认为mid,另外还有left和right。

orientation:设置直方图的摆放方向,默认为垂直方向。

rwidth:设置直方图条形的宽度。

log:是否需要对绘图数据进行log变换。

color:设置直方图的填充色。

edgecolor:设置直方图边框色。

label:设置直方图的标签,可通过legend展示其图例。

stacked:当有多个数据时,是否需要将直方图呈堆叠摆放,默认水平摆放。

这里不妨以Titanic数据集为例绘制乘客的年龄直方图,具体代码如下:

import pandas as pd

import matplotlib.pyplot as plt

# 读入数据

Titanic = pd.read_excel(r'泰坦尼克号乘客年龄分布.xlsx')

# 检查年龄是否有缺失

any(Titanic.Age.isnull())

# 不妨删除含有缺失年龄的观察

Titanic.dropna(subset=['Age'], inplace=True)

#设置绘图风格

plt.style.use('ggplot')

#处理中文乱码

plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']

#坐标轴负号的处理

plt.rcParams['axes.unicode_minus']=False

# 绘制直方图

plt.hist(x = Titanic.Age, # 指定绘图数据

bins = 20, # 指定直方图中条块的个数

color = 'steelblue', # 指定直方图的填充色

edgecolor = 'black' # 指定直方图的边框色

)

# 添加x轴和y轴标签

plt.xlabel('年龄

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值