一元线性回归
输入的属性数目只有一个,对于离散属性,通过连续化的方式将其转化为连续值。
学得:
最小二乘法:基于均方误差最小化来进行模型求解,分别对w、b求偏导,同时令式子为0,可以求到w,b的闭式解。
多元线性回归
输入的属性数目有多个,同样试图学得:
这里同样利用最小二乘法来对w,b进行估计,有
求导为零可以得到w,b的符号解如下:
最终得到线性回归模型:
对数几率回归
又叫作逻辑回归,用来处理分类问题的算法。
相对熵(KL散度):度量两个分布的差异,其典型使用场景是用来度量理想分布p(x)和模拟分布q(x)之间的差异。
模型:线性模型,输出值的范围为[0, 1],近似跃阶的单调可微函数
策略:极大似然估计,信息论
算法:梯度下降,牛顿法
找到一个单调可微的“替代”函数,用来替代单位跃阶函数,实现将函数的预测值映射到[0, 1]上面,有:
利用极大似然法化简有:
二分类线性判别分析
算法原理:
从集合的角度,让全体训练样本经过投影后:
- 异类样本的中心尽可能远
- 同类样本的方差尽可能小
类别不平衡问题(Class-imbalance)
有“再缩放”策略
当然“再缩放”策略也存在一定问题:主要因为训练集是真实样本总体的无偏估计这个假设往往不成立,也就是说,我们未必能够有效的基于训练集观测几率来推断出真实几率。
现有的技术大致有三种做法:
- 直接对训练集中的反类样例进行“欠采样”,即去除一些反例使得正、负样例数目接近,然后进行学习。
- 对训练集中的正类样例进行“过采样”,即增加一些正例使得正、反例数目接近,然后进行学习。
- 直接基于原始训练集进行学习,但在训练好的分类器进行预测时,将“再缩放”策略嵌入到其决策过程中,称为“阈值移动”。
注意:
“过采样”法不能简单的对初始正样例进行重复采样,否则会导致严重的过拟合。
同样,“欠采样”法也有一定的缺陷,丢弃的反例样本中可能含有重要信息。
参考:
- 【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导直播合集
- 《机器学习》周志华等著