统计与机器学习数据挖掘:从EDA到大数据时代
1. EDA方法概述
在数据分析中,传统统计方法假设已知关于变量Y的真实情况,这可能会在分析、结果和解释过程中引入偏差。而探索性数据分析(EDA)方法仅假设分析者对问题所在的领域有一定的先验经验。数据分析师凭借态度、灵活性和敏锐的洞察力,评估问题并让数据引导分析过程,进而揭示模型结构。
如果模型通过有效性检查,就可用于得出结果和进行解释;若未通过,则重新审视分析和数据,直至得到合理有效的模型。由于不涉及假设违背问题,EDA范式在一定程度上保证了探索性工作的无偏性,不过完全无偏的分析是不存在的,因为分析师本身的主观因素会影响分析过程。
2. EDA的优缺点
EDA具有诸多优势,但也存在两个小缺点,可能影响其广泛接受和成功应用。一是主观或心理层面的问题,数据分析师担心未能考虑多种可能性会导致分析有缺陷,从而产生工作永远无法完成的不安全感。二是一种误解,有人认为EDA最初是为小数据集设计的,在处理大样本时效果不佳。
实际上,虽然一些图形方法(如茎叶图)和数值计数方法(如折叠和分箱)在处理大样本时可能失效,但大多数EDA方法不受数据大小的影响。像幂次阶梯、重新表达和平滑等强大的EDA技术在处理大样本或大数据时表现出色,不过需要借助计算机进行大量计算。
3. 小数据与大数据的定义
数据大小的界定在很大程度上取决于分析师的主观判断。过去,小数据符合经典统计学的概念结构,通常指样本量较小,变量数量较少。小数据样本量很少少于5个个体,有时在5 - 20之间,常见于30 - 50或50 - 100之间,很少在100 - 200之间。小数据通常整洁干净,不包含不合理或
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



