机器学习02

算法原理

  • 正交回归和线性回归
    • 线性回归:预测误差(点到直线平行与y轴的距离)最小的那条直线,即均方误差最小,因此有线性回归函数的损失函数
    • 正交回归:点到线垂直距离最小的那条直线

线性回归的最小二乘估计和极大似然估计

  • 最小二乘估计
    • 基于均方误差最小化进行模型求解

a r g m i n ( w , b ) arg min_{(w,b)} argmin(w,b):表示求公式值最小时的w和b

  • 极大似然估计

    • 用途:估计概率分布的参数值
    • 例题:

计算技巧:

  • 一元线性回归极大似然估计推导一元线性回归

求解w和b

  • 多元函数求最值点问题(凸函数最值点)
  • 对w,b求一阶偏导=0
  • 凸集:若两个点属于此集合,则这两点连线上的任意一点均属于此集合,常见的凸集有空集,n维欧氏空间
  • 凸函数:机器学习和高数中的不一样,因为机器函数使用的时最优化后的,在此,机器学习上的凸函数是数学定义的凹函数
  • 梯度(多元函数的一阶导)-列向量
  • 海塞矩阵(多元函数的二阶导数):
修改:如果是半正定的,那么就是凸函数,如果是正定的,就是严格的凸函数
  • 求证过程

机器学习三要素

  • 模型:根据具体问题,确定假设空间
  • 策略:根据评价标准,确定选取最优模型的策略
  • 算法:求解损失函数,确定最优模型

由最小二乘法导出损失函数 E w ^ E_{\hat{w}} Ew^

求解 w ^ \hat{w} w^

对数几率回归

算法原理

  • 在线性模型的基础上套一个映射函数来实现分类功能

损失函数的极大似然估计推导

  • 第一步:确定概率质量函数
    p ( y = 1 ∣ x ) = 1 1 + e − ( w T x + b ) = e w T x + b 1 + e w T x + b p(y=1|x)=\frac{1}{1+e^{-(w^{T}x+b)}}=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}} p(y=1∣x)=1+e(wTx+b)1=1+ewTx+bewTx+b
    p ( y = 0 ∣ x ) = 1 − p ( y = 1 ∣ x ) = 1 1 + e w T x + b p(y=0|x)=1-p(y=1|x)=\frac{1}{1+e^{w^{T}x+b}} p(y=0∣x)=1p(y=1∣x)=1+ewTx+b1
    为了便于讨论,令 β = ( w ; b ) , x ^ = ( x ; 1 ) \beta=(w;b),\mathbf{\hat{x}} =(\mathbf{x};1) β=(w;b),x^=(x;1),则上式可以简写为
    p ( y = 1 ∣ x ^ ; β ) = e β T x ^ 1 + e β T x ^ = p 1 ( x ^ ; β ) p(y=1|\mathbf{\hat{x}};\beta)=\frac{e^{\beta^{T}}\mathbf{\hat{x}} }{1+e^{\beta^{T}}\mathbf{\hat{x}}}=p_1(\mathbf{\hat{x}};\beta) p(y=1∣x^;β)=1+eβTx^eβTx^=p1(x^;β)
    p ( y = 0 ∣ x ^ ; β ) = 1 1 + e β T x ^ = p 0 ( x ^ ; β ) p(y=0|\mathbf{\hat{x}};\beta)=\frac{1 }{1+e^{\beta^{T}}\mathbf{\hat{x}}}=p_0(\mathbf{\hat{x}};\beta) p(y=0∣x^;β)=1+eβTx^1=p0(x^;β)
    由以上概率取值可推得随机变量 y ϵ 0 , 1 y\epsilon{0,1} 0,1的概率质量函数为
    p ( y ∣ x ^ ; β ) = y ⋅ p 1 ( x ^ ; β ) + ( 1 − y ) ⋅ p 0 ( x ^ ; β ) 或者 p ( y ∣ x ^ ; β ) = [ p 1 ( x ^ ; β ) ] y [ p 0 ( x ^ ; β ) ] 1 − y p(y|\mathbf{\hat{x}};\beta)=y\cdot p_1(\mathbf{\hat{x}};\beta)+(1-y)\cdot p_0(\mathbf{\hat{x}};\beta)或者p(y|\mathbf{\hat{x}};\beta)=\begin{bmatrix} p_1(\mathbf{\hat{x}};\beta) \end{bmatrix}^y \begin{bmatrix} p_0(\mathbf{\hat{x}};\beta) \end{bmatrix}^{1-y} p(yx^;β)=yp1(x^;β)+(1y)p0(x^;β)或者p(yx^;β)=[p1(x^;β)]y[p0(x^;β)]1y
  • 第二步:写出似然函数
    L ( β ) = ∏ i = 1 m p ( y i ∣ x ^ i ; β ) L(\beta)=\prod_{i=1}^{m} p(y_i|\mathbf{\hat{x}_i};\beta) L(β)=i=1mp(yix^i;β)对数似然函数为
    ℓ ( β ) = ln ⁡ ( L ( β ) ) = ∑ i = 1 m ln ⁡ ( p ( y i ∣ x ^ i ; β ) ) \ell(\beta)=\ln(L(\beta))=\sum_{i=1}^{m}\ln(p(y_i|\mathbf{\hat{x}_i};\beta)) (β)=ln(L(β))=i=1mln(p(yix^i;β))
    ℓ ( β ) = ∑ i = 1 m ln ⁡ ( y i ⋅ p 1 ( x ^ i ; β ) + ( 1 − y i ) ⋅ p 0 ( x ^ i ; β ) ) \ell(\beta)=\sum_{i=1}^{m}\ln(y_i\cdot p_1(\mathbf{\hat{x}_i};\beta)+(1-y_i)\cdot p_0(\mathbf{\hat{x}_i};\beta)) (β)=i=1mln(yip1(x^i;β)+(1yi)p0(x^i;β))
  • p 1 ( x ^ i ; β ) = e β T x ^ i 1 + e β T x ^ i , p 0 ( x i ^ ; β ) = 1 1 + e β T x ^ i p_1(\mathbf{\hat{x}_i};\beta)=\frac{e^{\beta^{T}}\mathbf{\hat{x}_i} }{1+e^{\beta^{T}}\mathbf{\hat{x}_i}},p_0(\mathbf{\hat{x_i}};\beta)=\frac{1}{1+e^{\beta^{T}}\mathbf{\hat{x}_i}} p1(x^i;β)=1+eβTx^ieβTx^ip0(xi^;β)=1+eβTx^i1带入上式可得
    ℓ = ∑ i = 1 m ln ⁡ ( y i e β T x ^ i 1 + e β T x ^ i + 1 − y i 1 + e β T x ^ i ) = ∑ i = 1 m ln ⁡ ( y i e β T + 1 − y i x ^ i 1 + e β T x ^ i ) \ell=\sum_{i=1}^{m}\ln(\frac{y_ie^{\beta^{T}}\mathbf{\hat{x}_i} }{1+e^{\beta^{T}}\mathbf{\hat{x}_i}}+\frac{1-y_i}{1+e^{\beta^{T}}\mathbf{\hat{x}_i}})=\sum_{i=1}^{m}\ln(\frac{y_ie^{\beta^{T}}+1-y_i\mathbf{\hat{x}_i} }{1+e^{\beta^{T}}\mathbf{\hat{x}_i}}) =i=1mln(1+eβTx^iyieβTx^i+1+eβTx^i1yi)=i=1mln(1+eβTx^iyieβT+1yix^i)
    由于 y i ϵ 0 , 1 y_i\epsilon{0,1} yiϵ0,1
    ℓ ( β ) = { ∑ i = 1 m ( − ln ⁡ ( 1 + e β T x ^ i ) ) , y i = 0 ∑ i = 1 m ( β T x ^ i − ln ⁡ ( 1 + e β T x ^ i ) ) , y i = 1 \ell(\beta)=\left\{\begin{matrix} \sum_{i=1}^{m}(-\ln(1+e^{\beta^{T}}\mathbf{\hat{x}_i}) ),y_i=0\\ \sum_{i=1}^{m}(\beta^{T}\mathbf{\hat{x}_i}-\ln(1+e^{\beta^{T}}\mathbf{\hat{x}_i}) ),y^i=1\end{matrix}\right. (β)={i=1m(ln(1+eβTx^i)),yi=0i=1m(βTx^iln(1+eβTx^i)),yi=1两式综合可得
    ℓ ( β ) = ∑ i = 1 m ( y i β T x ^ i − ln ⁡ ( 1 + e β T x ^ i ) ) \ell(\beta)=\sum_{i=1}^{m}(y_i\beta^{T}\mathbf{\hat{x}_i}-\ln(1+e^{\beta^{T}}\mathbf{\hat{x}_i}) ) (β)=i=1m(yiβTx^iln(1+eβTx^i))

损失函数的信息论推导

  • 信息论:以概率论、随机过程为基本研究工具,研究广义通信系统的整个过程。常见的应用由无损数据压缩(如ZIP文件)、有损数据压缩(如MP3和JPEG)等
    • 自信息: I ( X ) = − log ⁡ b p ( x ) I(X)=-\log_{b}^{p(x)} I(X)=logbp(x),当b=2时单位时bit,当b=e时单位为net
    • 信息熵(自信息上网期望):度量随机变量X的不确定性,信息熵越大越不确定
      H ( X ) = E [ I ( x ) ] = − ∑ x p ( x ) log ⁡ b p ( x ) H(X)=E[I(x)]=-\sum_xp(x)\log_bp(x) H(X)=E[I(x)]=xp(x)logbp(x)(此处以离散型为例)
    • 计算熵是约定:若p(x)=0,则 p ( x ) log ⁡ b p ( x ) = 0 p(x)\log_bp(x)=0 p(x)logbp(x)=0
    • 相对熵(KL散度):度量两个分布的差异,其典型使用场景是用来度量理想分布如 p ( x ) p(x) p(x)和模拟分布 q ( x ) q(x) q(x)之间的差异
      D K L ( p ∣ ∣ q ) = ∑ x p ( x ) log ⁡ b ( p ( x ) q ( x ) ) = ∑ x p ( x ) log ⁡ b p ( x ) − ∑ x p ( x ) log ⁡ b q ( x ) D_{KL}(p||q)=\sum_xp(x)\log_b(\frac{p(x)}{q(x)})=\sum_xp(x)\log_bp(x)-\sum_xp(x)\log_bq(x) DKL(p∣∣q)=xp(x)logb(q(x)p(x))=xp(x)logbp(x)xp(x)logbq(x),其中 − ∑ x p ( x ) log ⁡ b q ( x ) -\sum_xp(x)\log_bq(x) xp(x)logbq(x)称为交叉熵
    • 从“策略”角度来讲,与理想分布最接近的模拟分布即为最有分布,因此可以通过最小化相对熵这个策略来求出最有分布,由于理想分布p(x)是未知但固定的分布(频率学派的角度),所以 ∑ x p ( x ) log ⁡ b q ( x ) \sum_xp(x)\log_bq(x) xp(x)logbq(x)为常量,那么最小化相对熵就等价于最小化交叉熵 − ∑ x p ( x ) log ⁡ b q ( x ) -\sum_xp(x)\log_bq(x) xp(x)logbq(x)
带入后
全体训练样本的交叉熵为
  • 对数几率回归算法的机器学习三要素
    • 模型:线性模型,输出范围为[0,1],近似阶跃的单调可微函数
    • 策略:极大似然估计,信息论
    • 算法:梯度下降,牛顿法

二分类线性判别分析

算法原理

  • 从几何的角度,让全体训练样本经过投影后:
    • 异类样本的中心尽可能远
    • 同类样本的方差尽可能小

损失函数推导

经过投影后,异类样本中心尽可能远
m a x ∣ ∣ w T μ 0 − w T μ 1 ∣ ∣ 2 2 max||w^T\mu_0-w^T\mu_1||_2^2 max∣∣wTμ0wTμ122(二范数:求向量模长)
m a x ∣ ∣ ∣ w ∣ ⋅ ∣ μ 0 ∣ ⋅ cos ⁡ θ 0 − ∣ w ∣ ⋅ ∣ μ 1 ∣ ⋅ cos ⁡ θ 1 ∣ ∣ 2 2 max|||w|\cdot |\mu_0|\cdot \cos\theta_0-|w|\cdot |\mu_1|\cdot \cos\theta_1||_2^2 max∣∣∣wμ0cosθ0wμ1cosθ122
经过投影后,同类样本的方差尽可能小
m i n w T ∑ 0 w min w^T\sum_0w minwT0w

拉格朗日乘子法

  • 对于仅含等式的优化问题:
    min ⁡ x \underset{x}{\min} xmin f ( x ) f(x) f(x)
    s . t . s.t. s.t. h i ( x ) = 0 h_i(x)=0 hi(x)=0 i = 1 , 2... , n i=1,2...,n i=1,2...,n
    其中自变量 x ϵ R n , f ( x ) 和 h ( x ) x\epsilon R^n,f(x)和h(x) xϵRn,f(x)h(x)均有连续的一阶偏导数,首先列入其拉格朗日函数
    L ( x , λ ) = f ( x ) + ∑ i = 1 n λ i h i ( x ) L(x,\lambda )=f(x)+\sum_{i=1}^n\lambda_ih_i(x) L(x,λ)=f(x)+i=1nλihi(x),其中 λ = ( λ 1 , λ 2 , . . . , λ n ) T \lambda=(\lambda_1,\lambda_2,...,\lambda_n)^T λ=(λ1,λ2,...,λn)T为拉格朗日乘子,然后对拉格朗日函数关于x求偏导,并令倒数等于0再搭配约束条件 h i ( x ) = 0 h_i(\mathbf{x})=0 hi(x)=0求出x,求解出的所有x即为上述优化问题的所有可能极值点

求解w

广义特征值和广义瑞利商

厄米矩阵(对称矩阵)满足: A H = A A^H=A AH=A;等于实数时: A H = A T = A A^H=A^T=A AH=AT=A

  • 21
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@小冯@

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值