数据分析知识点自用分享(Python)

可视化图像

散点图可以直观地看到两个变量之间的关系,包括线性趋势、离群点等。通过观察点的分布,可以看出变量是如何聚集或分散的,从而得知两个变量之间是否存在某种关系。

直方图是一种常用的数据可视化工具,是一种直观的图形,易于被人理解,能够清晰地展示数据的分布情况。

条形图是一种用于可视化数据分布和比较不同类别的图表类型。它通过使用矩形的长度来表示数据的数量或比例。其中,绘制水平条形图相对于垂直条形图有一些优点。因为`用途`的名称比较长,水平条形图可以确保文字不会重叠,使得比较不同类别之间的数值更加直观。

箱线图(Boxplot)是一种用于展示数据分布和离群值(异常值)的统计图表。它提供了关于数据集中位数、四分位数、离散程度和异常值的直观视觉展示。可以帮助识别中位数和四分位数、检测异常值和比较不同数据集的分布。

折线图:最简单直观的方法是绘制折线图,横轴表示时间,纵轴表示相应的数值或计数。这能够快速展示数据随时间的变化趋势。

柱状图(Bar Chart)通过使用不同长度的垂直矩形条来表示数据的大小或数量,以便于更直观地理解和比较不同类别之间的差异,易于理解和解读。

分组柱状图是一种数据可视化方法,用于展示两个或多个分类变量之间的关系。非常适合比较不同组别之间的数量或频率。

数据预处理

异常值(outlier)是指一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在检查异常值时,首先要检查数据是否存在空值和重复值,然后再检查异常值。

一般来说,检查异常值的方法包括:

1、基于统计学方法的检测:使用统计学工具,如均值、标准差、中位数、IQR(四分位距法)等来检测异常值。通过计算数据分布的偏离程度来确定异常值范围。

2、箱线图法:箱线图提供了一种可视化的方法,可以用于检测数据中的异常值。在箱线图中,异常值通常被定义为超过上下四分位距的1.5倍的数据点。

3、局部异常因子(LOF)算法:LOF算法是一种基于密度的异常检测算法,它利用数据点周围邻居的密度来评估每个数据点的异常程度。

4、孤立森林算法:孤立森林是一种基于树的异常检测算法,它尝试通过将数据集隔离为很少的区域来寻找异常值。该算法通过构建随机树来寻找异常值,而不是通过密度或距离度量。

5、DBSCAN算法:DBSCAN是一种基于密度的聚类算法,它可以识别异常值作为不属于任何聚类簇的数据点。在DBSCAN中,通过计算每个点周围邻居的密度来确定异常值。

其中,IQR(四分位距法)相对简单直观,易于理解和解释,具有较强的鲁棒性,IQR使用四分位数作为参考,避免了受到极端值的影响,而且,可以灵活的设置阈值。

IQR (四分位距法)的计算过程包括:

-  计算第一四分位数(Q1):数据集中所有数值排序后,处于25%位置的值。

   Q1 = \frac{(n + 1) \times 0.25}{2}

- 计算第三四分位数(Q3):数据集中所有数值排序后,处于75%位置的值。

  Q3 = \frac{(n + 1) \times 0.75}{2}

其中,n是数据集的大小,$(n + 1) \times 0.25$表示处于$25\%$位置的索引,$(n + 1) \times 0.75$表示处于$75\%$位置的索引,除以2是为了处理奇数长度的数据集。

- 计算IQR:

  IQR = Q3 - Q1  

- 计算上下边界:

  upper_bound = Q3 + 1.5\times IQR

  lower_bound = Q1 - 1.5\times IQR

通常,异常值可以通过以下方式识别:

1、箱线图:使用boxplot函数绘制数据的箱线图,并将outliers参数设置为True,以便在图中显示异常值。箱线图是一种可视化方法,用于显示数据的分布情况。异常值通常被定义为超出箱线图上下限的数值。

2、Z-Score:Z-Score是一种统计方法,用于将数据点与数据集的平均值和标准差进行比较。使用Z-Score函数计算数据的 Z-Score,Z-Score 为小于-3或大于3的数据点通常被认为是异常值。这种方法适用于正态分布的数据集。

3、四分位数间距(IQR):四分位数间距是数据集的中间50%的数据范围。计算数据的 IQR(Interquartile Range),它将数据分为三个四分位数(q1、q2和q3),然后将数据中小于q1 - 1.5 * IQR或大于q3 + 1.5 * IQR的数值视为异常值。这种方法适用于非正态分布的数据集。

通常情况下,识别异常值的方法包括:

1、基于统计学方法的检测:使用统计学工具,如均值、标准差、中位数、IQR(四分位距法)等来检测异常值。通过计算数据分布的偏离程度来确定异常值范围。

2、箱线图法:箱线图提供一种可视化的方法,可以用于检测数据中的异常值。在箱线图中,异常值通常被定义为超过上下四分位距的1.5倍的数据点。

3、局部异常因子算法:是一种基于密度的异常检测算法,它利用数据点周围邻居的密度来评估每个数据点的异常程度。

4、孤立森林算法:孤立森林是一种基于树的异常检测算法,它尝试通过将数据集隔离为很少的区域来寻找异常值。该算法通过构建随机树来寻找异常值,而不是通过密度或距离度量。

5、DBSCAN算法:DBSCAN是一种基于密度的聚类算法,它可以识别异常值作为不属于任何聚类簇的数据点。在DBSCAN中,通过计算每个点周围邻居的密度来确定异常值。
 

填补缺失值的方法有:

- 特定值填补:用一个特定的常数或数值来替代缺失值。包括均值/中位数/众数等,对于数值型数据,可以用整个特征的均值、中位数或众数填补缺失值。

- 前向填补和后向填补:对于时间序列数据时,可以使用前一个时间点的值(前向填补)或后一个时间点的值(后向填补)来填补缺失值。

- 插值法:通过已知数据点之间的趋势来估计缺失值。常见的插值方法包括线性插值、多项式插值(如拉格朗日插值和牛顿插值)、样条插值等。

- 机器学习建模预测填补:包括回归模型填补、K-最近邻、随机森林填补等。

以下是一些常见的处理缺失值的方法:


- 忽略缺失值:如果缺失值数量较少,且对分析结果影响不大,可以直接忽略这些缺失值。
- 填充缺失值:可以使用一些填充方法来替换缺失值,例如平均值、中位数、众数、随机数等。选择填充方法时需要考虑数据的分布情况和缺失值的分布情况。
- 删除包含缺失值的行或列:如果缺失值数量较多,或者缺失值的分布不均匀,可以考虑删除包含缺失值的行或列。
- 基于模型的方法:可以使用一些机器学习算法来处理缺失值,例如决策树、随机森林等。这些算法可以自动处理缺失值,并根据其他特征来预测缺失值的值。
- 多重插补法:这是一种基于统计推断的方法,通过对缺失值进行多次插补来估计缺失值的可能值,并对每次插补的结果进行平均或合并。

检查日期类型字段异常值的方法包括:

1、基于统计的方法:时间间隔分析:计算日期之间的时间间隔,检测是否存在异常的间隔。基于统计的度量:可以计算日期字段的均值、标准差等统计度量,然后检测超出一定标准的值作为异常。

2、时

  • 26
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值