统计学
- 是一门收集、整理和分析统计数据的方法科学
- 其目的是探索数据内在的数量规律性,以达到对客观事物的科学认识
- 统计学研究随机现象,以推断为特征,”由部分推及全体”的思想贯穿于统计学的始终
描述统计学(Description Statistics)
◆研究如何取得反映客观现象的数据【获取数据】
◆并通过图表形式对所收集的数据进行加工处理和显示【处理数据】
◆进而通过综合概括与分析得出反映客观现象的规律性数量特征【提取数据特征】
推断统计学(Inferential Statistics)
◆研究如何根据样本数据去推断总体数量特征的方法【样本推断总体】
◆它是在对样本数据进行描述的基础上
◆对统计总体的未知数量特征做出以概率形式表述的推断
应用
谷歌票房预测模型
数据描述方法
获取到数据之后,怎么分析数据呢?就从以上三个方面入手,查看数据的数值都偏向于吃什么趋势,离散程度,还有数据表示在n维坐标中时的形状如何。
- 均值(Mean):是指在一组数据中所有数据之和再除以数据的个数;它是反映数据集中趋势的-项指标。
- 中位数(Median):将数据排序,取最中间的数作为中位数。(如果偶数个数据,取最中间两个数的平均数)
- 众数(Mode):出现次数最多的数。(可以存在多个众数,也可以不存在众数,也适用于非数值型数据)
定义误差函数,通过将误差最小化来提高模型的性能。单纯将误差最小化并不能保证模型在更一般的场景中能高性能的使用,甚至有的条件下是不可用的。训练数据集的误差和一般数据集的误差的差异叫做泛化误差,又可以分为偏差和方差。
方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。 f ( x ; D ) f(x;D) f(x;D)表示训练集D通过模型f对样本x的预测, f ( x ) ˉ = E D ( f ( x ; D ) \bar {f(x)}=E_D(f(x;D) f(x)