所谓的统计学四大方法收集、处理、分析、解释,简简单单八个字便概括了数据的今生今缘。那么接下来我简单介绍一下
1.数据的诞生
在信息时代,我们每天接触到的,不管是你在上班途中看的报纸杂志,还是下班回家去菜市场买菜时菜品的价格,都可以笼统的称之为——数据!
当然我们要用到的数据,显然不止于自己接触的,有时我们需要利用数据去指导工作或投资,例如股票价格、客户体验满意度、市场销售方案的制定等等,这就需要我们去获取。
获取的方法有抽样、调查问卷、电话采访、网络爬虫等等,这便是数据的诞生。
2.数据的处理
当你得到一份数据,第一时间要做的不是建立模型去分析,而是对数据进行预处理,换句话说就是你需要对获取的数据进行再次的整理和了解。整理即对缺失的数据或是错误的数据进行一定的处理,否则分析出的结果会存在误差,这是我们最不愿看到的;数据的了解,就是在你得到数据后,你需要对数据分布有一定的概念,才能确定你需要使用什么方法进行分析。常见的数据预处理方法:异常值处理、缺失值处理、数据规范化等。
3.数据分析
对于数据而言,总共有两种关系:确定的关系和相关的关系。确定的关系像函数一样,每一个自变量都会对应一个唯一的函数值;相关关系,即数据之间存在着某种关联(如“蝴蝶效应”),用数学公式难以描述的,这便是数学与统计学的分支点。相关关系主要用于回归分析、主成分分析、预测等等。
4.数据解释
顾名思义,就是对数据分析的结果进行解释,用来知道现实决策。一般而言采用不同的方法,分析结果输出的参数也不相同,所以对于结果的优劣需要具体问题具体分析。