Python数据可视化之绘制计数图(图文并茂版!!!)

数据获取

       •在上篇博客中我们介绍了绘制抖动的带状图:Python数据可视化之绘制抖动的带状图(图文并茂版!!!)
       •并且也介绍了数据的来源获取,及数据分析包含数据特征值的解读等等!!

计数图的介绍

       •抖动的带状图的作用就是向我们展示哪些位置存在着相同的点,根据抖动的幅度来判断各个相同点的数量的多少,现在我们学习一种和抖动的带状图作用相似的图像,叫做计数图它是通过某个坐标点的大小(面积)来判断此点相同数量的多少!!!
       •如果你的需求是将某个数据集的某两个特征值作为横纵坐标,并将所有点都展示在图像上, 包括那些横纵坐标相同的点,那么你可以选择抖动的带状图或者计数图,二者皆可以!!!

绘制计数图

数据处理

       •在技术图中,坐标点的面积越大,即为该点坐标的相同数量越多,首先我么需要将我们所需的横、纵坐标取出,并统计各个(相同)坐标点的数量
       •横坐标:城市里程/加仑(cty)
       •纵坐标:公路里程/加仑(hwy)
代码测试:

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

df = pd.read_csv(r'D:\9\mpg_ggplot2.csv')

# 数据处理
df_counts = df.groupby(['hwy', 'cty']).size().reset_index(name='counts')
print(df_counts)

运行显示:
在这里插入图片描述
       •代码解读:df.groupby([‘hwy’, ‘cty’]).size() 以hwy,cty作为主键,取出所有不同的类别,size为聚合函数,将相同类别聚合在一起.reset_index(name=‘counts’) 重新设置索引名称,当括号内的name属性为空时,索引为0,name属性为何值,则索引名称为何值:
在这里插入图片描述
在这里插入图片描述

绘制图像

       •将数据处理与绘制图像代码整合得:

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

df = pd.read_csv(r'D:\9\mpg_ggplot2.csv')

# 数据处理
df_counts = df.groupby(['hwy', 'cty']).size().reset_index(name='counts')


# 绘制图像
fig, ax = plt.subplots(figsize=(12, 8), dpi=80)
sns.stripplot(x=df_counts.cty
              , y=df_counts.hwy
              , sizes=df_counts.counts * 25  # 使用sizes属性而不是size
              , ax=ax
              )

# 装饰图片
plt.rcParams['font.sans-serif'] = ['Simhei']  # 设置字体为黑体
plt.xlabel('城市里程/加仑', fontsize=16)  # x轴名称
plt.ylabel('公路里程/加仑', fontsize=16)  # y轴名称
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.title('Counts Plot - Size of circle is bigger as more points overlap', fontsize=20)
plt.show()

图像显示:
在这里插入图片描述

注意

       •我们在设置坐标点的大小时,应该使用属性sizes而不是size,如果使用size属性会出现下述报错:
在这里插入图片描述
       •解决使用size属性报错的方法参考博客:解决报错:使用seaborn绘制计数图时出现错误:ValueError: s must be a scalar, or the same size as x and y(图文并茂版!!)

总结

       •在使用计数图时,应注意我们上述提到的注意点,如数据处理,sizes的选择等等!!,计数图的作用与抖动的带状图相似,遇到实际问题可自行分析,选择合适的图像进行展示数据!!!

  • 57
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 50
    评论
Python中,你可以使用多个库来绘制特征可视化,其中一些常用的库包括matplotlib、seaborn和pandas。以下是几种常见的特征可视化示例: 1. 直方(Histogram):用于表示连续变量的分布情况。 ```python import matplotlib.pyplot as plt # 假设有一个连续变量data data = [1, 2, 3, 4, 5, 2, 3, 4, 5, 6, 7, 8, 9] # 绘制直方 plt.hist(data) plt.xlabel('Value') plt.ylabel('Frequency') plt.show() ``` 2. 箱线(Box Plot):用于显示连续变量的统计信息,如最小值、最大值、中位数和四分位数。 ```python import seaborn as sns # 假设有一个DataFrame df,包含多个连续变量var1、var2等 df = pd.DataFrame({'var1': [1, 2, 3, 4, 5], 'var2': [2, 4, 6, 8, 10]}) # 绘制箱线 sns.boxplot(data=df) plt.show() ``` 3. 散点(Scatter Plot):用于显示两个连续变量之间的关系。 ```python import seaborn as sns # 假设有一个DataFrame df,包含两个连续变量x和y df = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [2, 4, 6, 8, 10]}) # 绘制散点 sns.scatterplot(x='x', y='y', data=df) plt.show() ``` 4. 条形(Bar Plot):用于显示分类变量的计数或某个变量在不同类别间的比较。 ```python import seaborn as sns # 假设有一个DataFrame df,包含一个分类变量category和一个连续变量value df = pd.DataFrame({'category': ['A', 'B', 'A', 'B', 'A'], 'value': [2, 4, 6, 8, 10]}) # 绘制条形 sns.barplot(x='category', y='value', data=df) plt.show() ``` 这只是一些常见的特征可视化示例,你可以根据需要选择适当的表类型和库来绘制特征可视化。希望对你有帮助!
评论 50
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值