如何度量变量之间的相关性

最新推荐文章于 2024-03-21 13:52:24 发布

闵帆

最新推荐文章于 2024-03-21 13:52:24 发布

阅读量2.8k

点赞数

分类专栏：机器学习基础文章标签：机器学习算法

本文链接：https://blog.csdn.net/minfanphd/article/details/119367187

版权

机器学习基础专栏收录该内容

17 篇文章 6 订阅

订阅专栏

在百度中搜索 “如何度量两个实数变量之间的相关性?” 可得到如下链接:
https://jingyan.baidu.com/article/fd8044facdc8d25030137a44.html. 可见相关性分析已经有一些成熟的方法. 本贴不考虑这些方法, 而是从我的已有知识来进行模型的构建.

1. 相关性度量

令输入为 $\mathbf{X} = [x_{ij}]_{n \times m} \in \mathbb{R}^{n \times m}$ , 输出为 $\mathbf{Y} = [y_1, y_2, \dots, y_n]$ , 其中 $n$ 为对象数, $m$ 为属性数. 将输入属性记为变量 $x_i$ ( $\le i \le m$ ), 输出属性记为变量 $y$ . 不失一般性, 令 $\hat{\mathbf{Y}} = [\hat{y}_1, \hat{y}_2, \dots, \hat{y}_n]$ 为根据 $\mathbf{X}$ 对 $\mathbf{Y}$ 的预测, 预测函数可记为
$f(x_1, x_2, \dots, x_m) \tag{1}$
即
$\hat{y}_i = f(\mathbf{x}_i) = f(x_{i1}, x_{i2}, \dots, x_{im}) \tag{2}$
则变量集合 $\mathbf{A} = \{x_1, x_2, \dots, x_m\}$ 在预测函数 $f$ 下与 $y$ 的相关性定义为 $p$ -范数
$cor(\mathbf{A}, y) = \|\hat{\mathbf{Y}} - \mathbf{Y}\|_p$
其中 $p$ 一般取 1 或者 2. 该范数越小, 表示相关性越高.

2. 基于单变量的泛化线性回归

如果只想观察单个变量 $\in \mathbf{A}$ 与 $y$ 的相关性, 可使用不同的预测模型.

考虑基本线性假设

$\tag{3}$
重新构建输入矩阵 $\mathbf{X} = [x_{ij}]_{n \times 2}$ , 其中 $x_{i1} \equiv 1$ , $x_{i2}$ 变量 $x$ 在第 $i$ 个对象上的值. 令权重向量为 $\mathbf{w} = [w_1, w_2]$ . 利用线性回归模型易知
$\mathbf{w} = (\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\mathbf{Y} \tag{3}$
用它来计算 $\hat{\mathbf{Y}}$ 即可.

考虑二次曲线假设

$^2 + bx + c \tag{4}$
重新构建输入矩阵 $\mathbf{X} = [x_{ij}]_{n \times 2}$ , 其中 $x_{i1} \equiv 1$ , $x_{i2}$ 为变量 $x$ 在第 $i$ 个对象上的值, $x_{i3} = x_{i2}^2$ . 仍然使用线性回归模型求解 $\mathbf{w}$ 并计算 $\hat{\mathbf{Y}}$ .

考虑其它假设

其它假设如自然对数可按类似方法求解, 即仅需要重构 $\mathbf{X}$ .
由于在线性回归的基础上可加入其它函数假设, 我将其称为 “泛化线性回归”.

说明

由于仅仅是两个变量之间的相关性, 可在二维平面上画出散列点, 分析规律后选择合适的模型假设.
纯线性的最为常用, 其它方法中, 不建议考虑三次曲线等.
如果仅仅是想对变量进行排序, 用这些方法就可以了.

3. 多变量的处理

如果想获得更好的拟合, 可使用多变量. 当变量比较少的情况下, 可穷举所有的组合, 然后用线性回归. 如果变量较多, 只能用启发式方法:
Step 1. 计算各变量的相关性, 并令
$\argmin_{x_i \in \mathbf{A}} cor(\{x_i\}, y), \mathbf{B} = \{x'\};$
Step 2. 令
$\argmin_{x_i \in \mathbf{A} \setminus \mathbf{B}} cor(\mathbf{B} \cup \{x_i\}, y);$
Step 3. if ( $cor(\mathbf{B} \cup \{x'\}, y) < cor(\mathbf{B}, y))$ then
$\mathbf{B} \leftarrow \mathbf{B} \cup \{x'\}$ ;
goto Step 2;
else return $\mathbf{B}$ ;

说明: Step 3 的判断, 也可以要求相关性之间的差值不小于某个阈值.

4. 其它

可以考虑离群点移除, 以获得泛化性更佳的拟合. 可采用自步学习等方法. 这时候需要对回归方法、评价指标均作相应修改, 即仅计算离群点移除后的结果.
不建议使用正则项. 有效性仅需要在训练集上验证即可, 不需要测试集.

5. 权威方法

咨询超哥后获得权威方法.
Pearson 相关系数定义为:
$\rho(X, Y) = \frac{cov(X, Y)}{\sigma_X \sigma_Y} = \frac{E((X - \mu_X) (Y - \mu_Y))}{\sigma_X \sigma_Y}$
$- 1$ 表示完全不相关, $+ 1$ 表示完全相关.