异常数据4种剔除方法_数据分析系列 22/32 | 9种常用的数据分析方法

要使各种结构化的、非结构化的、海量的数据实现标准化、信息化,能够提供业务绩效评估、业务决策支持等要求,我们首先需要进行数据分析。

同时,围绕业务问题,采用合适的分析方法,分析模型,以及分析工具,这是数据分析师的必备技能。这里介绍了一些常用的数据分析方法供大家参考。

ef7de3041226a0805e45fc53b27d0c63.png

PART

01

一般统计类

一、描述性统计

描述性统计是一类统计方法的汇总,揭示了数据分布特性。它主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形。

1、缺失值填充:常用方法有剔除法、均值法、决策树法。

2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以在做数据分析之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。

二、回归分析

回归分析是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律。

1. 一元线性分析

只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量Y或其残差必须服从正态分布。

2.

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Matlab聚类分析是一常用数据分析方法,确保数据分析的准确性和可信度非常重要。其中,对于异常数据剔除是非常关键的一步。 在Matlab中进行聚类分析时,可以使用诸如k-means、层次聚类等函数进行数据聚类。对于异常数据剔除,可以借助该聚类分析结果,通过以下两方法实现: 1. 手动指定聚类中心:将异常数据手动分配到以聚类中心为中心点的类中,然后重新进行聚类分析,剔除这些异常数据。例如: ``` % k-means聚类分析 [idx, centers] = kmeans(data, k); % 手动指定聚类中心 centers([1, 3], :) = []; new_idx = kmeans(data, k-2, 'Start', centers); % 剔除异常数据 outlier_idx = find(~ismember(idx, new_idx)); new_data = data(new_idx, :); ``` 2. 通过距离筛选法剔除离群值:将数据按照其与所属类的聚类中心的距离进行排序,根据距离的分布规律,选择一个合适的距离界限,将超出该距离界限的数据剔除。例如: ``` % k-means聚类分析 [idx, centers] = kmeans(data, k); % 计算距离 distances = pdist2(data, centers); % 筛选离群数据 max_distance = mean(distances(:)) + std(distances(:)); outlier_idx = find(any(distances > max_distance, 2)); new_data = data(~ismember(1:size(data, 1), outlier_idx), :); ``` 需要注意的是,上述方法虽然能够剔除部分异常数据,但是并不能完全避免由于噪声、缺失值等原因导致的偏差。因此,在数据分析过程中,还需结合实际情况对数据进行严格筛选和检验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值