西瓜书学习-线性回归

1.基本形式

f(x)=w_1x_1+w_2x_2+⋅⋯+w_dx_d+b ,向量形式 f(x)=w^Tx+b

(1)线性模型一般具有解释性,如: f好瓜(x) = 0.2 * x_{色泽} + 0.5*x_{根蒂} + 0.3*x_{敲声} + 1 从式子中可以看到根蒂是最重要的

w_i表示每个属性对应的权重,值在0~1之间,表示的是第i个属性x_i占最后结果的百分比,也可以理解为属性x_i的重要性。

(2)许多强大的非线性模型,可在线性模型的基础上通过引入层级结构或高维特征而得

1.1 什么叫线性

线性函数 ≠ 线性回归方程 首先看这三个函数,读者大致判断一下这三个函数,哪些是线性回归,哪些是非线性回归?

答案是:方程一和方程二为线性回归,方程三为非线性回归。线性回归中线性的含义: ​因变量y对于未知的回归系数(β0,β1 .... βk) 是线性的。

这个问题弄错的原因是,大家把“线性回归方程”等价于“线性函数”。如方程二,出现了二次方,它是非线性函数,但是根据线性回归中对线性的定义,它是线性回归方程!

2.线性回归

2.1 离散属性连续化

  1. 对离散属性,若属性值之间存在“序”(order)关系,可通过连续化将其转化为连续值,例如二值属性身高的取值,“高”“矮”可和转化为{1.0 , 0}。
  2. 若属性值之间不存在序的关系,例如属性“瓜类”的取值为西瓜,南瓜,冬瓜,则可转化为(0,0,1),(0,1,0),(1,0,0)。

2.2 凸函数

2.3 最小二乘法(least square method)

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。

求解w和b的过程,就是让式子 E_{(w,b)} = \sum_{i=1}^{m}{(y_i-wx_i-b)^2}, 下面来分别对w和b进行求导

\begin{Bmatrix}  & \frac{∂E_{(w,b)}}{∂w} = 2(\sum^n_{i=1}y_i-wx_i-b)(-1) = 0 & \\   & \frac{∂E_{(w,b)}}{∂b} = 2(\sum^n_{i=1}y_i-wx_i-b)(-x_i) = 0 &  \end{Bmatrix}

下面为w和b的最优解推导:

2.3 多元线性回归

但是上面的公式推导是基于x的维度d=1的情况,在更一般的情况下d并不等于1,也就是我们一开始讨论的y^=wTx+b,此时线性回归有个特殊的名字,叫做多元线性回归。为了方便讨论,我们记\hat{w} = (w;b), X=(x_1^T,1; x_2^T, 1; ...; x_m^T, 1),那么\hat{y} = X\hat{w},损失函数为:

L(w,b)=L(\hat{w})=(y-X\hat{w})^T(y-X\hat{w})

然后下面对w进行求导:

令式子=0,可得:

\hat{w}^* = (X^TX)^{-1}X^Ty

!!!!!!!!!满秩矩阵!!!!!!!!!!!

2.4 梯度下降法

2.5 牛顿法

3.对数线性回归

把线性回归模型简写为:f(x)=w^Tx+b ,当我们希望线性模型的预测值逼近真实标记y,这样就是线性模型。那可否令模型的预测值毕竟y的衍生物呢? 作者的这一描述实在太妙了!y的衍生物,通俗易懂! 假设y的衍生物是 y的对数即lny,那么就可以得到对数线性回归模型:lny=w^Tx+blny=w^Tx+b , 也就是让模型 去逼近 lny,而不是y。也可以对 lny=w^Tx+blny=w^Tx+b 做一下变换就变成了 y=e^{w^Tx+b} ,也可以理解为让 e^{w^Tx+b} 去逼近y。形式上还是线性回归的,但实质上已是在求取输入空间到输出空间的非线性函数映射。如图:

假如说β1等于0.04,x每增加1,那么y的值就会是增加之前的百分之4,增加了所谓弹性。

3.1广义线性模型

y=g^{-1}(w^Tx+b)

这样的模型叫做广义线性模型,其中g函数称为联系函数,对数线性回归是广义模型在g()=ln()时的特例

3.2 多元线性回归

3.3 非线性

4.对数几率回归(逻辑回归)

对数几率回归呢? 让 w^Tx+b 去逼近什么呢?那就是让w^Tx+b 去逼近一个y的对数几率函数,也就是这个形式:ln\frac{y}{1-y}=w^Tx+b ,其中 \frac{y}{1−y}就是几率(odds),反映了x为正样本的可能性, 对几率再取对数就得到对数几率。通常我们不是写成这个形式的,稍微做一下转换,就得到我们熟悉的逻辑回归方程: y=\frac{1}{1+e^{−(w^Tx+b)}}。其实就相当于线性模型的输出加了一个激活函数,这个激活函数就是大名鼎鼎的sigmoid函数,其实也叫做logistic function。所以Logistic Regression中的Logistic是出自 Logistic function,而Logistic function 就是我们常说的sigmoid函数。此函数可以把x映射到(0,1),恰恰符合我们的概率取值。

这里西瓜书没有解释为什么不用均方误差来作为损失函数。

这里再同步一下AndrewNg的讲解

如果y=1,但是我们的 {P(y=1|x;θ)} = 0,就是说实际是恶性肿瘤,但我预测恶性的概率为0,就会得到巨大的惩罚。

我们惊讶地发现逻辑回归和线性回归更新参数的规则竟然是一样的,但背后的函数已经完全不一样。

4.1 逻辑回归推导

然后来看一下如何确定 w 和 b,将 y 视为后延概率估计p(y=1|x),则式子可以写成:

In\frac{p(y=1|x)}{p(y=0|x)} = w^Tx+b

线性判别分析(Linear Discriminant Analysis, LDA)

LDA的思想非常朴素:给定训练集,设法找到一个投影,这个投影可将样本投影到一条直线上,使得同类样本的投影点尽可能接近、异类样本的投影点尽可能的远离;对新样本分类时,将新样本投影到此直线上,再依据投影点的位置来确定类别。假设一个二分类问题,LDA投影示意图:

5.多分类学习

西瓜书课后习题

1.试分析在什么情况下,在以下式子中不比考虑偏置项b

线性模型y=w^tx+b,两个实例相减得到yi−y0=w^t(xi−x0),以此消除了b。所以可以对训练集每个样本都减去第一个样本,然后对新的样本做线性回归,只需要用模型y=w^tx

2.试证明,对于参数w,对率回归(logistics回归)的目标函数(式1)是非凸的,但其对数似然函数(式2)是凸的。

转载于:https://juejin.im/post/5cb3da1a6fb9a068b47b6b8f

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值