做每一件事,都需要一定的流程,数据分析也不例外。下面,我将从我理解的角度介绍数据分析工作具体需要哪些工作流程:
一、目标确定
在数据分析之前,我们需要明确我们要解决什么问题,要达到什么目的,只有明确了目标,我们才能进行下面的工作。
我们还要明确分析方式,我们是对现有情况进行分析,也就是描述性分析,还是基于现状,预测未来的情况,也就是预测性分析,这两种分析方式决定了我们接下来的工作步骤。
二、数据获取
在这一步我们需要进行字段设计,也就是根据第一步的目标确定到底要分析哪些指标,并确定相应的字段,以便进行分析。
若当前的基础数据中有需要的字段,就对其保留;若没有,则需要根据现有字段进行计算,如通过单价和购买数量计算总额。
三、数据提取
有两种常用的方式:
- 从软件中导出数据。例如从销售管理软件中导出销售数据。
- 通过SQL语句从数据库中提取数据。
四、数据清洗
需要对四种不正常的数据进行清洗:
- 异常值:首先,识别异常值,可以通过计算与平均值的倍数;其次,判定异常值是否合理,是否有其产生的合理原因;最后,对异常值进行处理。
- 空白值:可以对其进行平均值填补或删除。
- 无效值:可以对其进行修正、平均值填补或删除。
- 重复值:可以对其进行删除。