1.一元线性回归
- 基本形式:给定由d个属性描述的示例,其中xi是x在第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即: ,向量形式为:
- 基于均方误差最小化来进行模型求解的方法称为”最小二乘法”,即最小化下面的均方误差函数,求此时的w和b
- 极大似然估计:对于离散随机变量X,假设其概率质量函数为为(概率密度函数为), 其中theta为待估计的参数值(可以有多个),其中x1,x2,...xn是来自X的n个独立同分布的样本,它们的联合概率为:,其中x1,x2...xn是已知量,theta是未知量,因此该函数是一个关于theta的函数,称L(theta)为样本的似然函数。极大似然估计的直观想法:使联合概率(似然函数)L(theta)取得最大值的theta*即为theta的估计值。
- 线性回归的模型可以假设为:,因为服从正态分布,所以有:,将epsilon代换为y-wx-b,可得p(y),分析可得:,应用极大似然估计理论,有最大化联合概率函数等于:
- 问题变为了求多元函数最值(点)的问题,下面思路变为1)证明该函式是w和b的凸函数;2)用凸函数求最值的方法求解出w和b。
- 凸集:设集合,若对任意x,y属于D与任意的属于【0,1】,有,则有集合D是凸集。凸函数:设D是非空凸集,f是定义在D上的函数,如果对任意x1,x2属于D,α属于【0,1】,均有:,则称f为D上的凸函数。
- 定理:设是非空开凸集,,且f(x)在D上二阶连续可微,如果f(x)的hessian矩阵在D上是半正定的,则f(x)是D上的凸函数
- Hessian矩阵:
2.多元线性回归
- 算法原理类似于一元线性回归,但是更普适现实具有多属性的样本回归问题。
3.对数几率回归
- sigmoid函数是即形似S的函数,其单调可微,并具有类似阶跃函数的性质,当sigmoid作为线性模型的联系函数(见西瓜书p57)。式可转化,若将y视为样本x作为正例的可能性,则1-y是其反例可能性。
- 将联系函数中的y视为先验概率,则有,通过最大化“对数似然”求w和b的值。(1.确定概率质量函数;2.使用概率连乘,写出似然函数)
- 信息论:以概率论、随机过程为基本研究工具,研究广义通信系统的整个过程。
- 自信息:,当b=2时,单位为bit; 信息熵(自信息的期望),度量随机变量X的不确定性,信息熵越大越不确定。
相对熵:度量两个分布的差异,其典型使用场景是用来度量理想分布p(x)和模拟分布q(x)之间的差异,式称为交叉熵(个人理解是交叉了两个分布,即理想分布和模拟分布的信息,故称为交叉熵)因为px是固定的,所以最小化后面的交叉熵即最小化相对熵
4.线性判别分析
- 线性判别分析:让全体训练样本经过投影后:异类样本的中心尽可能远,同类样本的方差尽可能小。
- 协方差:,方差是协方差的特殊情况。
- 线性判别分析的核心思想是让同类样例投影点的协方差尽可能小,让异类样例的投影点尽可能远离。最大化的目标函数为:,即使该函数分子最大化,分母最小化。
- 定义类内散度矩阵:(即两类的协方差之和感觉);定义类间散度矩阵,则待最大化的式子可改写为。
- 拉格朗日乘子法:设给定二元函数z=ƒ(x,y)和附加条件φ(x,y)=0,为寻找z=ƒ(x,y)在附加条件下的极值点,先做拉格朗日函数,其中λ为参数。
令F(x,y,λ)对x和y和λ的一阶偏导数等于零,即
F'y=ƒ'y(x,y)+λφ'y(x,y)=0
F'λ=φ(x,y)=0
由上述方程组解出x,y及λ,如此求得的(x,y),就是函数z=ƒ(x,y)在附加条件φ(x,y)=0下的可能极值点。
若这样的点只有一个,由实际问题可直接确定此即所求的点。
-
LDA推广到多分类问题,最终可化简为广义特征值求解问题:.W的闭式解则是的N-1个最大广义特征值所对应的特征向量组成的矩阵。N是当前的类别数。(怎么证明存在疑问)