数据分析知识点自用分享（Python）

青衣武影

已于 2024-02-27 16:01:56 修改

阅读量884

点赞数 26

文章标签：数据分析信息可视化

于 2024-02-27 14:00:45 首次发布

本文链接：https://blog.csdn.net/qq_45866386/article/details/136318299

版权

可视化图像

散点图可以直观地看到两个变量之间的关系，包括线性趋势、离群点等。通过观察点的分布，可以看出变量是如何聚集或分散的，从而得知两个变量之间是否存在某种关系。

直方图是一种常用的数据可视化工具，是一种直观的图形，易于被人理解，能够清晰地展示数据的分布情况。

条形图是一种用于可视化数据分布和比较不同类别的图表类型。它通过使用矩形的长度来表示数据的数量或比例。其中，绘制水平条形图相对于垂直条形图有一些优点。因为`用途`的名称比较长，水平条形图可以确保文字不会重叠，使得比较不同类别之间的数值更加直观。

箱线图（Boxplot）是一种用于展示数据分布和离群值（异常值）的统计图表。它提供了关于数据集中位数、四分位数、离散程度和异常值的直观视觉展示。可以帮助识别中位数和四分位数、检测异常值和比较不同数据集的分布。

折线图：最简单直观的方法是绘制折线图，横轴表示时间，纵轴表示相应的数值或计数。这能够快速展示数据随时间的变化趋势。

柱状图（Bar Chart）通过使用不同长度的垂直矩形条来表示数据的大小或数量，以便于更直观地理解和比较不同类别之间的差异，易于理解和解读。

分组柱状图是一种数据可视化方法，用于展示两个或多个分类变量之间的关系。非常适合比较不同组别之间的数量或频率。

数据预处理

异常值（outlier）是指一组测定值中与平均值的偏差超过两倍标准差的测定值，与平均值的偏差超过三倍标准差的测定值，称为高度异常的异常值。在检查异常值时，首先要检查数据是否存在空值和重复值，然后再检查异常值。

一般来说，检查异常值的方法包括：

1、基于统计学方法的检测：使用统计学工具，如均值、标准差、中位数、IQR（四分位距法）等来检测异常值。通过计算数据分布的偏离程度来确定异常值范围。

2、箱线图法：箱线图提供了一种可视化的方法，可以用于检测数据中的异常值。在箱线图中，异常值通常被定义为超过上下四分位距的1.5倍的数据点。

3、局部异常因子（LOF）算法：LOF算法是一种基于密度的异常检测算法，它利用数据点周围邻居的密度来评估每个数据点的异常程度。

4、孤立森林算法：孤立森林是一种基于树的异常检测算法，它尝试通过将数据集隔离为很少的区域来寻找异常值。该算法通过构建随机树来寻找异常值，而不是通过密度或距离度量。

5、DBSCAN算法：DBSCAN是一种基于密度的聚类算法，它可以识别异常值作为不属于任何聚类簇的数据点。在DBSCAN中，通过计算每个点周围邻居的密度来确定异常值。

其中，IQR（四分位距法）相对简单直观，易于理解和解释，具有较强的鲁棒性，IQR使用四分位数作为参考，避免了受到极端值的影响，而且，可以灵活的设置阈值。

IQR （四分位距法）的计算过程包括：

- 计算第一四分位数（Q1）：数据集中所有数值排序后，处于25%位置的值。

Q1 = \frac{(n + 1) \times 0.25}{2}

- 计算第三四分位数（Q3）：数据集中所有数值排序后，处于75%位置的值。

Q3 = \frac{(n + 1) \times 0.75}{2}

其中，n是数据集的大小，$(n + 1) \times 0.25$表示处于$25\%$位置的索引，$(n + 1) \times 0.75$表示处于$75\%$位置的索引，除以2是为了处理奇数长度的数据集。

- 计算IQR：

IQR = Q3 - Q1

- 计算上下边界：

upper_bound = Q3 + 1.5\times IQR

lower_bound = Q1 - 1.5\times IQR

通常，异常值可以通过以下方式识别：

1、箱线图：使用boxplot函数绘制数据的箱线图，并将outliers参数设置为True，以便在图中显示异常值。箱线图是一种可视化方法，用于显示数据的分布情况。异常值通常被定义为超出箱线图上下限的数值。

2、Z-Score：Z-Score是一种统计方法，用于将数据点与数据集的平均值和标准差进行比较。使用Z-Score函数计算数据的 Z-Score，Z-Score 为小于-3或大于3的数据点通常被认为是异常值。这种方法适用于正态分布的数据集。

3、四分位数间距（IQR）：四分位数间距是数据集的中间50%的数据范围。计算数据的 IQR（Interquartile Range），它将数据分为三个四分位数（q1、q2和q3），然后将数据中小于q1 - 1.5 * IQR或大于q3 + 1.5 * IQR的数值视为异常值。这种方法适用于非正态分布的数据集。

通常情况下，识别异常值的方法包括：

2、箱线图法：箱线图提供一种可视化的方法，可以用于检测数据中的异常值。在箱线图中，异常值通常被定义为超过上下四分位距的1.5倍的数据点。

3、局部异常因子算法：是一种基于密度的异常检测算法，它利用数据点周围邻居的密度来评估每个数据点的异常程度。

填补缺失值的方法有：

- 特定值填补：用一个特定的常数或数值来替代缺失值。包括均值/中位数/众数等，对于数值型数据，可以用整个特征的均值、中位数或众数填补缺失值。

- 前向填补和后向填补：对于时间序列数据时，可以使用前一个时间点的值（前向填补）或后一个时间点的值（后向填补）来填补缺失值。

- 插值法：通过已知数据点之间的趋势来估计缺失值。常见的插值方法包括线性插值、多项式插值（如拉格朗日插值和牛顿插值）、样条插值等。

- 机器学习建模预测填补：包括回归模型填补、K-最近邻、随机森林填补等。

以下是一些常见的处理缺失值的方法：

- 忽略缺失值：如果缺失值数量较少，且对分析结果影响不大，可以直接忽略这些缺失值。
- 填充缺失值：可以使用一些填充方法来替换缺失值，例如平均值、中位数、众数、随机数等。选择填充方法时需要考虑数据的分布情况和缺失值的分布情况。
- 删除包含缺失值的行或列：如果缺失值数量较多，或者缺失值的分布不均匀，可以考虑删除包含缺失值的行或列。
- 基于模型的方法：可以使用一些机器学习算法来处理缺失值，例如决策树、随机森林等。这些算法可以自动处理缺失值，并根据其他特征来预测缺失值的值。
- 多重插补法：这是一种基于统计推断的方法，通过对缺失值进行多次插补来估计缺失值的可能值，并对每次插补的结果进行平均或合并。

检查日期类型字段异常值的方法包括：

1、基于统计的方法：时间间隔分析：计算日期之间的时间间隔，检测是否存在异常的间隔。基于统计的度量：可以计算日期字段的均值、标准差等统计度量，然后检测超出一定标准的值作为异常。

2、时

最低0.47元/天解锁文章

青衣武影

关注

26
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
数据分析知识点自用分享（Python）

异常值（outlier）是指一组测定值中与平均值的偏差超过两倍标准差的测定值，与平均值的偏差超过三倍标准差的测定值，称为高度异常的异常值。其中，n是数据集的大小，$(n + 1) \times 0.25$表示处于$25\%$位置的索引，$(n + 1) \times 0.75$表示处于$75\%$位置的索引，除以2是为了处理奇数长度的数据集。其中，IQR（四分位距法）相对简单直观，易于理解和解释，具有较强的鲁棒性，IQR使用四分位数作为参考，避免了受到极端值的影响，而且，可以灵活的设置阈值。
复制链接

扫一扫