多元统计数据的概念:
例子:鸢尾花数据集
一元随机变量回顾:回顾概率论与数理统计的内容
重点总结: 随机样本是从数据角度出发。而随机变量是从理想模型角度出发。实际应用中都是用数据样本构建均值方差等量,然后用参数估计的方法 倒推出其理想模型,然后用模型去检验实际数据。这是统计学实际应用的方法思想。
二元随机变量
协方差含义:刻画了两个变量 X Y的相关性(或者说是多元数据中两个特征量的相关性)
怎么理解? 如下笔记
形象化理解协方差或者相关系数的含义 如下图
相关系数理解:
相关系数在协方差基础上进一步严格定义了两个特征变量的关系 如下
下面是一些推论
随机向量
多元数据定义
多元数据的均值向量
理解:对每列特征变量求一元均值,然后再对所求均值再取均值 即为先求列均值再求行均值
例子:特征维度为3的均值向量
协方差:
理解:协方差中每个元素描述了两两特征变量之间的相关性
性质:
相关系数矩阵理解同协方差矩阵
例子:天池蒸汽数据图
性质: