数据分析是指用适当的工具和方法对收集来的大量数据进行分析,将它们加以汇总、理解和消化,以求最大化地开发数据的功能,从而发挥数据的价值。本节介绍为什么要进行数据分析,以及数据分析的主要方法与流程。
1.1.1 什么是数据分析
对于没有编程基础的小白,能学会数据分析?又该如何学习数据分析呢?其实,如果你打算成为一名数据分析师,出身并不重要,数据科学是一门应用学科,你只需要系统学习和提升数据分析的能力即可。
什么是数据分析,通俗一点来说就是针对某个问题,将获取后的数据用分析的手段加以处理,并发现业务价值的过程。例如我们很多人都做过类似这样的智力题:一堆看起来完全一样的乒乓球,其中有一个质量稍轻的次品,如何利用天平,并用最少次数的称量来找出这个次品。大家都会想到分组称量的方法,即“混样检测”,即当天平两端平衡时,两组乒乓球应该都是正常的,如图1-1所示。
图1-1 分组称量法
目前,新冠肺炎核酸筛查就使用了“混样检测”方法,例如10个样本混到一起检测一次,如果是阴性则全部是阴性,如果是阳性,那么需要再对每个样本分别进行检测。在预估阳性率很低的前提下,“混样检测”极大地减少了检测次数,虽然“混样”造成病毒浓度的稀释,但是在30个以内的样本混合时不会影响检出结果。