最小二乘是求残差$e=Xw-y$的最大似然,也就是求最小-log似然。为简化问题,假设$e$是样本独立的nx1高斯分布,n是数据个数,$e$的nxn协方差矩阵$\Sigma_{ee}$是对角线矩阵,每个数据点在loss function中的权重是其残差的方差的倒数$1/var(e_i)$。换句话说,$e_i$方差越大,越不可信,其权重越小。而$e_i$方差的估计由实际问题的统计模型决定,我觉得是最小二乘框架中最重要,最体现对实际问题理解程度的地方。
$$\Sigma_{ee}=\begin{bmatrix} var(e_1) & & \\ & \ddots & \\ & & var(e_n) \end{bmatrix}$$
$$\Sigma_{ee}^{-1}=\begin{bmatrix} 1/var(e_1) & & \\ & \ddots & \\ & & 1/var(e_n) \end{bmatrix}$$
数据点加权的-logloss function是
$$-\log L(w)=(Xw-y)^T\Sigma_{ee}^{-1}(Xw-y)$$
因为$\Sigma_{ee}^{-1}$是对角线矩阵,有
$$-\log L(w)=\Sigma_{ee}^{-1}(Xw-y)^T(Xw-y)$$
其中$w$是待求参数,$X$是输入数据,$y$是输出,$\Sigma_{ee}$是输出的covariance matrix。每个数据对应的-logloss的权重是$1/var(e_i)$。
SofaSofa数据科学社区DS面试题库 DS面经
×
Warning
您确定要删除本贴么?所有相关回复也会被一并删除并且无法恢复。
取消
确定删除
Zealing
2018-10-02 18:42