可视化常见绘图(五)散点图

可视化常见绘图(五)散点图

一.散点图简介

散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。

通过观察散点图上数据点的分布情况,我们可以推断出变量间的相关性。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。数据的相关关系主要分为:

  • 正相关(两个变量值同时增长)。
  • 负相关(一个变量值增加另一个变量值下降)。
  • 不相关。
  • 线性相关。
  • 指数相关。

散点图经常与回归线结合使用,归纳分析现有数据以进行预测分析。

对于那些变量之间存在密切关系,但是这些关系又不像数学公式和物理公式那样能够精确表达的,散点图是一种很好的图形工具。但是在分析过程中需要注意,这两个变量之间的相关性并不等同于确定的因果关系,也可能需要考虑其他的影响因素。

二.散点图的组成

一个标准的散点图至少包括以下几个部分:

  • 纵轴:表示其中一个变量的值
  • 横轴:表示其中一个变量的值
  • 点:(X,Y)
  • 回归线:最准确地贯穿所有点的线

三.应用场景

适合数据:两个连续数据字段的数据。

主要功能:观察数据的分布

适用数据条数:无限制。

备注:为了更好的观察数据分布,需要设置数据点的透明度或者是颜色。

适合场景

  • 显示和比较数值,不光可以显示趋势,还能显示数据集群的形状,以及在数据云团中各数据点的关系。

不适合场景

  • 显示各个分类数据的比例。

四.实现

matplotlib中使用scatter函数实现散点图,函数介绍如下:

scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None,vmin=None, vmax=None, alpha=None, linewidths=None, *,edgecolors=None, plotnonfinite=False, data=None, **kwargs)

参数1:x,y:指定数据散点的坐标。

参数2:s:数值型,指定散点的大小。

参数3:c:数组或类数组型,指定散点的颜色。

参数4:marker:限定字符串,指定散点的标记类型(默认为:‘o’)。

参数5:cmap:指定所选用的colormap。

参数6:norm:未知。

参数7、8:min、vmax和norm配合使用用来归一化数据。

参数9:alpha:浮点型,指定散点的透明度。

参数10:linewidths:整数型,指定散点边缘的线宽;如果marker为None,则使用verts的值构建散点标记

参数11:verts:未知。

参数12:edgecolors:数组或类数组型,指定散点边缘颜色,会循环显示。

参数13:plotnonfinite:布尔型,结合 set_bad使用,指定是否是非限定式画点。

参数14:**kwargs:接受的关键字参数传递给Collection实例。

返回值:关联的PathCollection实例。

使用以SOCR-HeightWeight.csv数据集为例,该数据集一共记录了25000 个对象的身高体重,以身高为横轴,以体重为纵轴,查看两个变量之间的关系,完整代码如下:

import matplotlib.pyplot as plt

from sklearn.linear_model import LinearRegression

import numpy as np

import pandas as pd

plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置支持中文
plt.rcParams['axes.unicode_minus'] = False  # 设置-号
plt.style.use('seaborn-dark-palette')

df = pd.read_csv("SOCR-HeightWeight.csv", index_col=0)
height = df["Height(Inches)"].values.reshape(-1, 1)
weight = df["Weight(Pounds)"].values.reshape(-1, 1)

model = LinearRegression()
model.fit(height, weight)
coef = model.coef_[0]
intercept = model.intercept_[0]

height_avg = np.average(height)
weight_avg = np.average(weight)

quadrant1 = df[(df["Height(Inches)"] >= height_avg) & (df["Weight(Pounds)"] >= weight_avg)]
quadrant1_height = quadrant1["Height(Inches)"][:3000]
quadrant1_weight = quadrant1["Weight(Pounds)"][:3000]
plt.scatter(quadrant1_height, quadrant1_weight, alpha=0.3, label="散点图第一象限")

quadrant2 = df[(df["Height(Inches)"] <= height_avg) & (df["Weight(Pounds)"] >= weight_avg)]
quadrant2_height = quadrant2["Height(Inches)"][:3000]
quadrant2_weight = quadrant2["Weight(Pounds)"][:3000]
plt.scatter(quadrant2_height, quadrant2_weight, alpha=0.3, label="散点图第二象限")

quadrant3 = df[(df["Height(Inches)"] <= height_avg) & (df["Weight(Pounds)"] <= weight_avg)]
quadrant3_height = quadrant3["Height(Inches)"][:3000]
quadrant3_weight = quadrant3["Weight(Pounds)"][:3000]
plt.scatter(quadrant3_height, quadrant3_weight, alpha=0.3, label="散点图第三象限")

quadrant4 = df[(df["Height(Inches)"] >= height_avg) & (df["Weight(Pounds)"] <= weight_avg)]
quadrant4_height = quadrant4["Height(Inches)"][:3000]
quadrant4_weight = quadrant4["Weight(Pounds)"][:3000]
plt.scatter(quadrant4_height, quadrant4_weight, alpha=0.3, label="散点图第四象限")

# 画平均值
plt.hlines(weight_avg, min(height), max(height), ls="--", color='r', lw=2, label='体重平均值')
plt.vlines(height_avg, min(weight), max(weight), ls='--', color='k', lw=2, label='身高平均值')
x = np.arange(min(height), max(height), 0.05)
y = coef * x + intercept
plt.plot(x, y, lw=2, color="darkgray", label="身高体重回归线")
plt.title("身高体重散点图", fontsize=25, fontweight="bold")
plt.xlabel("身高(Inches)", fontsize=20)
plt.ylabel("体重(Pounds)", fontsize=20)
plt.legend(fontsize=15)
plt.show()

实现效果如下:
身高体重散点图

五.参考

  1. 堆叠图介绍
  2. 折线图
  3. 面积图
  4. 柱状图
  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Python的数据可视化散点图可以使用三种绘图包来实现,它们分别是Matplotlib、Seaborn和ECharts。使用Matplotlib绘制散点图的方法是将数据作为Numpy的ndarray传入,然后使用Matplotlib的函数来生成图形。而Seaborn是在Matplotlib的基础上进行封装的,提供了更高级的统计绘图功能,也可以用来绘制散点图。ECharts是一款由百度开发的开源图表库,使用JavaScript编写,但也提供了Python的接口。 如果想使用Matplotlib来绘制散点图,首先需要安装Matplotlib库,可以使用`pip install matplotlib`命令来进行安装。然后按照以下步骤来进行绘制: 1. 导入必要的库:`import numpy as np`和`import matplotlib.pyplot as plt` 2. 准备数据:使用Numpy生成随机数据作为散点图的数据,例如:`y = np.random.standard_normal(10)` 3. 绘制散点图:使用Matplotlib的scatter函数来绘制散点图,例如:`plt.scatter(x, y)` 4. 添加图形标题和轴标签:使用Matplotlib的title、xlabel和ylabel函数来添加图形的标题、x轴标签和y轴标签,例如:`plt.title('Scatter Plot')`、`plt.xlabel('X')`和`plt.ylabel('Y')` 5. 显示图形:使用Matplotlib的show函数来显示图形,例如:`plt.show()` 以上是使用Matplotlib绘制散点图的基本步骤。对于Seaborn和ECharts,使用方法与Matplotlib有所不同,可以根据具体需求选择合适的绘图包来进行数据可视化。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Python可视化必看,用三种方式学会制作散点图!](https://blog.csdn.net/littlelianglian/article/details/106917256)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [Python 绘制可视化折线图](https://download.csdn.net/download/weixin_38687343/14840810)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [Python数据可视化散点图(基础篇---图文并茂详细版!!!)](https://blog.csdn.net/qq_45261963/article/details/118086413)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小猪猪家的大猪猪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值