以下内容仅针对教材内容,而不是关于这门学科;这学科我是真没搞懂。
核心想法:发现数据中统计上的规律(概率、分布……),并试图进行预测(参数估计、假设检验……)
这大概就是这门学科能成为机器学习的核心的原因之一,因为这和机器学习的任务是相同的,学习数据的特征,并且进行预测
整体思路:单变量 - 多变量,小数据 - 大数据
特征
概率
书中似乎只考虑了单变量场景。本质是基于频率的,需要独立性。如果不独立,那需要考虑事件共现,就不是单变量了。
古典概型
条件概率:全概率公式、贝叶斯公式
分布
离散型:分布律
连续型:分布函数、概率密度
单变量
离散型:二项分布、0-1分布、泊松分布
连续型:均匀分布、指数分布、正态分布
多变量
扩展出联合分布的概念,并且对之前所有的概念在多维上进行了扩展(如,条件分布和概率密度)。
边缘分布
X+Y、Y/X、XY、max、min的分布
测度
单变量
数学期望
方差
切比雪夫不等式
多变量
协方差
相关系数:独立与相关性
大数据场景
我对此的定义,如果具有统计意义,一定是大数据场景。
大数定律
中心极限定理
抽样分布:卡方分布、t分布、F分布
预测
参数估计:点估计、最大似然估计、区间估计、置信区间
假设检验:拒绝假设的标准、一类错误(类似于假阴性)、二类错误(类似于假阳性)、基于三大抽样分布的检验
方差分析
回归分析