DWhall ML Chapter3

1.一元线性回归

  • 基本形式:给定由d个属性描述的示例x=(x_1;x_2;...;x_d),其中xi是x在第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测的函数,即:                                            f(x)=w_1x_1+w_2x_2+...+w_dx_d+b,向量形式为:f(x)=w^Tx+b
  • 基于均方误差最小化来进行模型求解的方法称为”最小二乘法”,即最小化下面的均方误差函数,求此时的w和b E_(w,b)=\sum_{i=1}^M(y_i-f(x_i)^2) 
  • 极大似然估计:对于离散随机变量X,假设其概率质量函数为为P(x;\theta )(概率密度函数为p(x;\theta)), 其中theta为待估计的参数值(可以有多个),其中x1,x2,...xn是来自X的n个独立同分布的样本,它们的联合概率为:L(\theta)=\prod_{i=1}^MP(x_i;\theta),其中x1,x2...xn是已知量,theta是未知量,因此该函数是一个关于theta的函数,称L(theta)为样本的似然函数。极大似然估计的直观想法:使联合概率(似然函数)L(theta)取得最大值的theta*即为theta的估计值。
  • 线性回归的模型可以假设为:y=wx+b+\xi,因为\xi服从正态分布,所以有:p(\xi)=\frac{1}{(2\pi)^\frac{1}{2}\sigma }exp(\frac{-\xi^2}{2\sigma^2}),将epsilon代换为y-wx-b,可得p(y),分析可得:y\sim N(wx+b,\sigma^2),应用极大似然估计理论,有最大化联合概率函数等于:\mathop{\arg\min}_{w,b}\sum_{i=1}^m(y_i-wx_i-b)^2
  • \mathop{\arg\min}_{w,b}\sum_{i=1}^m(y_i-wx_i-b)^2问题变为了求多元函数最值(点)的问题,下面思路变为1)证明该函式是w和b的凸函数;2)用凸函数求最值的方法求解出w和b。
  • 凸集:设集合D\subset \mathbb{R}^n,若对任意x,y属于D与任意的\alpha属于【0,1】,有\alpha x+(1-\alpha)y\subset D,则有集合D是凸集。凸函数:设D是非空凸集,f是定义在D上的函数,如果对任意x1,x2属于D,α属于【0,1】,均有:f(\alpha x_1+(1-\alpha) x^2)\leqslant \alpha f(x^1)+(1-\alpha)f(x^2),则称f为D上的凸函数。
  • 定理:设D\subset \mathbb{R}^n是非空开凸集,f:D\subset \mathbb{R}^n\rightarrow \mathbb{R},且f(x)在D上二阶连续可微,如果f(x)的hessian矩阵在D上是半正定的,则f(x)是D上的凸函数
  • Hessian矩阵: 
  • \triangledown ^2f(x)=\begin{pmatrix} \frac{\partial ^2 f(x)}{\partial x_1^2} & \frac{\partial ^2 f(x)}{\partial x_1\partial x_2} & ... \\ ... & ... & ... \\ \frac{\partial ^2 f(x)}{\partial x_n\partial x_1} & \frac{\partial ^2 f(x)}{\partial x_n\partial x_2} & ... \end{pmatrix}

2.多元线性回归

  • 算法原理类似于一元线性回归,但是更普适现实具有多属性的样本回归问题。                           

3.对数几率回归

  • sigmoid函数是即形似S的函数,其单调可微,并具有类似阶跃函数的性质,当sigmoid作为线性模型的联系函数(见西瓜书p57)。式y=\frac{1}{1+e^-(w^Tx+b)}可转化ln\frac{y}{1-y}=w^Tx+b,若将y视为样本x作为正例的可能性,则1-y是其反例可能性。
  • 将联系函数中的y视为先验概率,则有ln\frac{p(y=1|x)}{p(y=0|x)}=w^Tx+b,通过最大化“对数似然”求w和b的值。(1.确定概率质量函数;2.使用概率连乘,写出似然函数)
  • 信息论:以概率论、随机过程为基本研究工具,研究广义通信系统的整个过程。
  • 自信息:I(x)=-log_bp(x),当b=2时,单位为bit;                                                                  信息熵(自信息的期望)H(X)=E[I(X)]=-\sum_{x}^{}p(x)log_bp(x),度量随机变量X的不确定性,信息熵越大越不确定。

相对熵:度量两个分布的差异,其典型使用场景是用来度量理想分布p(x)和模拟分布q(x)之间的差异D_{KL}(p\left | \right |q)=\sum_{x}^{}p(x)log_b(\frac{p(x)}{q(x)})=\sum_{x}^{}p(x)log_bp(x)-\sum_{x}^{}p(x)log_bq(x),式-\sum_{x}^{}p(x)log_bq(x)称为交叉熵(个人理解是交叉了两个分布,即理想分布和模拟分布的信息,故称为交叉熵)因为px是固定的,所以最小化后面的交叉熵即最小化相对熵     

4.线性判别分析

  • 线性判别分析:让全体训练样本经过投影后:异类样本的中心尽可能远,同类样本的方差尽可能小。
  • 协方差:cov(X,Y)=E[X-E[X]][Y-E[Y]],方差是协方差的特殊情况。
  • 线性判别分析的核心思想是让同类样例投影点的协方差尽可能小,让异类样例的投影点尽可能远离。最大化的目标函数为:J=\frac{| | w^T\mu_0 -w^T\mu_1 | |^2_2}{w^T\Sigma _0w+w^T\Sigma _1w},即使该函数分子最大化,分母最小化。
  • 定义类内散度矩阵:S_w=\Sigma _0+\Sigma_1=\sum_{x\in X_0 }^{}(x-\mu_0)(x-\mu_0)^T+\sum_{x\in X_1}^{}(x-\mu_1)(x-\mu_1)^T(即两类的协方差之和感觉);定义类间散度矩阵S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T,则待最大化的式子可改写为J=\frac{w^TS_bw}{w^TS_ww}
  • 拉格朗日乘子法:设给定二元函数z=ƒ(x,y)和附加条件φ(x,y)=0,为寻找z=ƒ(x,y)在附加条件下的极值点,先做拉格朗日函数F(x,y,\lambda)=f(x,y)+\lambda \phi(x,y),其中λ为参数。

    令F(x,y,λ)对x和y和λ的一阶偏导数等于零,即

    F'x=ƒ'x(x,y)+λφ'x(x,y)=0 [1] 

    F'y=ƒ'y(x,y)+λφ'y(x,y)=0

    F'λ=φ(x,y)=0

    由上述方程组解出x,y及λ,如此求得的(x,y),就是函数z=ƒ(x,y)在附加条件φ(x,y)=0下的可能极值点

    若这样的点只有一个,由实际问题可直接确定此即所求的点。

  • LDA推广到多分类问题,最终可化简为广义特征值求解问题:S_bW=\lambda S_wW.W的闭式解则是S_w^{-1}S_b的N-1个最大广义特征值所对应的特征向量组成的矩阵。N是当前的类别数。(怎么证明存在疑问)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值