数据分析是指将整体分解为单独的部分,以进行单独检查。数据分析是一个过程,用于获得原始数据并将其转换成用于由用户决策有用的信息。收集并分析数据以回答问题,检验假设或推翻理论。
统计学家约翰·图基(John Tukey)在1961年将数据分析定义为:“分析数据的程序,解释此类程序结果的技术,计划数据收集以使其分析更容易,更精确或更准确的方式以及所有的机制和结果适用于分析数据的(数学)统计信息。”
可以区分几个阶段,如下所述。这些阶段是迭代的,因为后期阶段的反馈可能会导致早期阶段的其他工作。
1、数据的需求
要进行数据分析,数据是必须的,它是根据指导分析的人员或客户的要求指定的。将在其上收集数据的实体的一般类型称为实验单位(例如,个体与群体)。可以指定和获得有关人口的特定变量(例如男女人数,收入水平等)。数据可以是数字的也可以是分类的(即数字的文本标签)。
2、数据的收集
数据的收集来源方式很多,它是是从各种来源收集的。数据分析师可以将需求传达给数据的管理人员,如组织内的信息技术人员。还可以从环境中的传感器(例如监控,卫星等)收集数据。也可以通过采访,从在线资源下载或阅读文档来获取数据。
3、数据的处理
数据的处理是用于将原始信息转换为可操作的情报或知识的情报周期的各个阶段在概念上类似于数据分析中的各个阶段。
最初获得的数据必须经过处理或组织以便分析。例如,这些可能涉及将数据以表格格式