一、一元线性回归
1.最小二乘估计
基于均方误差最小化来进行模型求解的的方法为最小二乘法。均方误差公式为
将代入,得
求出使最小的
和
(数学中表达为
,若最大则表示为
)当估计值
,
。
2.极大似然估计
对于离散型(连续型)随机变量,假设其概率质量函数为
(概率密度函数为
),其中
为待估计的参数值(可以有多个)。现有
是来自样本
的
个独立同分布样本,其联合概率(密度)为
(
)
此时为关于
的似然函数。极大似然法是求使
最大的
当估计值,至于怎么求,会的都会,不会的去学概率论。
对于线性回归,可假设其模型为
其中,则
的概率密度函数为
将代入,得
易知。似然函数为:
等号两边取对数,得
、
已知,所以
关于
和
是凸函数,分别关于
和
求偏导数,求出偏导数为0时的
和
。
关于求偏导数并令其为0,得
关于求偏导数并令其为0,得
二、多元线性回归
1.导出损失函数
将和
组成
,先列出公式:
令,得
由最小二乘法得
2.向量化
将向量化,得
令,
,则
3.求解
为凸函数,将
对
求导,得
由、
知
令,得
即为所求。
三、对数几率回归
1.算法原理
对数几率回归的算法原理为在线性回归的基础上套一个映射函数来实现分类功能。一般情况下映射函数选用。
2.极大似然估计
首先确定概率质量函数(概率密度函数)。已知离散型随机变量,
取值为1和0的概率分别建模为
令,
,得
概率质量函数为
然后写出似然函数。似然函数为
令,将
、
,得
因为,所以
此即为损失函数的相反数,对其求。
3.信息论
自信息公式为
当时单位为bit,
时单位为nat。
信息熵为度量随机变量不确定性的量,其越大越不确定。公式为
约定时
。
相对熵也叫KL散度,用于度量两种分布的差异。公式为
其中为交叉熵。信息论是通过最小化交叉熵来求最优分布。
对于单个样本而言,其理想分布为
模拟分布为
交叉熵为
令,交叉熵变为
全体训练样本交叉熵则为
对交叉熵逐步化简,
求使其最小的即可。
四、二分类线性判别分析
1.算法原理
二分类线性判别分析的算法原理为从几何角度让全体训练样本经过投影后异类样本的中心尽可能远,同类样本的方差尽可能小。
2.损失函数推导
令、
、
分别为第
类示例的集合、均值向量、协方差矩阵。经过投影后,异类样本的中心尽可能远,
同类样本的方差尽可能小,
其中、
、
分别为广义瑞利商、类间散度矩阵、类内散度矩阵。令
,求
。
3.求解
由以上求得拉格朗日函数为
令,则
令,得
令,得
求得。
本文公式推导过程参考自周志华《机器学习》和https://www.bilibili.com/video/BV1Mh411e7VU?p=6并结合自己理解完成。