一、统计学基础
学习数据挖掘的前提基础是掌握统计学一些基本概念。统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,以及预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。
从数据分析的角度来看,统计学是根据样本去估计总体。统计学的一些思想和大数据思想有些相违背的。以往在做数据分析时,并不关注数据的大小,而是关注数据的好坏。
和大数据的结合点,举例:比如在用卷积神经网络,做图片识别时,有个ImageNet竞赛,提供500万张的图片。
二、描述统计量
分析数据最开始要进行数据描述性分析。数据描述性分析指的是:通过绘制统计图、编译统计表、描述统计量等方法来表数据数据的分布特征。
我们先来学习有哪些常用的描述统计量。
当我们要研究一个样本时( x 1 , x