目录
学习机器学习和数据挖掘中的各种算法和模型,需要掌握统计学的基本概念。统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,并预测对象未来走势的一门综合性科学。
简单说,统计学是根据样本估计总体的科学。它的一些思想和大数据思想有些相悖,不关注数据的大小,而是更关注数据的好坏。
分析数据的第一步要进行数据描述性分析,数据描述性分析指的是:通过绘制统计图、编译统计 表、描述统计量等方法来表数据数据的分布特征。
其中,描述统计量包括:中心趋势度量、分散程度度量
中心趋势度量 | 描述样本数据的集中趋势的统计量 | 均值、中位数、众数、百分位数…… |
分散程度度量 | 又称散布度量 | 方差、标准差、极差、百分位数…… |
对于R中的必会操作可以参见:R语言必会基础语法