我们知道做认识事情都有个流程顺序,正确的流程可以事半功倍,错误的流程往往会导致事情重新来做。流程如此重要,具体到数据分析的流程也是一样的,数据分析可以分为五步,过程和家里的贤内助做饭的过程相似,分为问题识别,数据可行性论证,数据准备,建立模型,评估结果。希望本文可以抛砖引玉,引发对大数据分析的适用性、可靠稳健的大数据分析标准、如何健康发展大数据产业等问题更深入的探讨。
大数据分析五大步骤
(一)问题识别
大数据分析的第一步是要清晰界定需要回答的问题。对问题的界定有两个标准,一是清晰、二是符合现实。
(二)数据可行性论证
论证现有数据是否足够丰富、准确,以致可以为问题提供答案,是大数据分析的第二步,项目是否可行取决于这步的结论。大数据和传统数据的生成方式有本质不同。传统数据往往是在识别问题、根据问题设计问卷、之后展开调查获得的数据,而大数据却是企业或者个体各类活动产生的附属产品。作为附属产品,大数据往往不是为了特定数据项目生成,也存在较高噪音。这就要求数据可行性论证过程需要仔细推敲,现有数据得出来的结论是否足够可靠。由于大数据分析技术本质属于数据挖掘法,过度拟合问题往往是大数据分析的难点。
因此,在数据可行性论证主要涉及三个环节。第一,厘清项目需要的大数据、小数据和专业知识;第二,完成从抽象概念到具体指标的落实;第三,考察数据的代表性。
(三)数据准备
数据准备环节需要梳理分析所需每个条目的数据ÿ