nndl-book-笔记-入门第三章-线性模型

第3 章线性模型

    1)线性模型(Linear Model)是机器学习中应用最广泛的模型,指通过样本特征的线性组合来进行预测的模型。

    2)四种不同线性分类模型:logistic 回归、softmax 回归、感知器和支持向量机。

  3.1 线性判别函数和决策边界

    一个线性分类模型(线性分类器),是由一个(或多个)线性的判别函数f(x,w) =wTx+b 和非线性的决策函数g(·) 组成

3.1.1 两类分类

    1)两类分类样本标签{-1,+1}或{0,1}

    2)在两个分类中,我们只需要一个线性判别函数f(x,w) = wTx +b。特征空间Rd 中所有满足f(x,w) = 0 的点组成用一个分割超平面,称为决策边界或决策平面。决策边界将所有样本划分为两个区域,即实现二分类。

    3)在二维空间中,决策边界为一个直线;在三维空间中,决策边界为一个平面;在高维空间中,决策边界为一个超平面。

    4)当标签为{-1,+1}时,尽量满足:  y(n) f(x(n),w∗) > 0,即预测值与标签值同号。

  3.1.2 多类分类

    1)多类分类(Multi-class Classification)问题是指分类的类别数C 大于2。多类分类一般需要多个线性判别函数。

    2)多类分类问题的常用方式有三种:一对其余;一对一(每两个类划分);argmax(可以更好的划分类与类之间相近的区域)

3.2 Logistic 回归

    1)Logistic 回归是一种常用的处理两类分类问题的线性模型。在本节中我们采用y ∈ {0, 1} 以符合logistic回归。

    2)激活函数:其作用是把线性函数的值域从实数区间“挤压”到了(0, 1) 之间,可以用来表示概率(如使用sigmod函数)。

    3)logistic函数:1/(1+e^-(wx)), 如下图所示:

    4)线性回归与logistic回归图像

           Logistic 回归采用交叉熵作为损失函数,并使用梯度下降法来对参数进行优化。

           (交叉熵损失函数: ,其中y为标签值,y^为预测值即logistics函数预测值)

    5)求导过程

      可知,求出对参数W的偏导形式为: ;根据梯度下降更新参数,例如:W1=W1-A*(损失函数对W1的偏导)      其中A为学习率,      

  3.3 Softmax 回归

            PS:1、argmax是一种函数,是对函数求参数(集合)的函数。当我们有另一个函数y=f(x)时,若有结果x0= argmax(f(x)),则表示当函数f(x)取x=x0的时候,得到f(x)取值范围的最大值;若有多个点使得f(x)取得相同的最大值,那么argmax(f(x))的结果就是一个点集。

                     2、指示函数:I(indicator function),I(X),其中X为true,返回1,否则返回0。

    1)Softmax 回归(Softmax Regression),也称为多项或多类的logistic 回归,是logistic 回归在多类分类问题上的推广。

    2)所有类中,C类占的比重即位下式:

  3.3.1 参数学习

    1)给定N 个训练样本{(x(n), y(n))}N n=1,softmax 回归使用交叉熵损失函数来学习最优的参数矩阵W。

    2)因softmax为多项logistic回归,且均使用交叉熵损失函数,故对参数的梯度形式类似;

    3)softmax 回归中使用的C 个权重向量是冗余的,即对所有的权重向量都减去一个同样的向量v,不改变其输出结果。(不太懂为啥??)

3.4 感知器

        感知器是最简单的人工神经网络,只有一个神经元,是一种广泛使用的线性分类器。

        有与生物神经元相对应的部件,如权重(突触)、偏置(阈值)及激活函数(细胞体),输出为+1或-1。

  3.4.1 参数学习

    1)约束条件:同上。为了满足预测值与真实值相同。

    2)参数更新流程:

  3.4.2 感知器的收敛性

    1)如果训练集是线性可分的,那么感知器算法可以在有限次迭代后收敛。(废话)

       (证明感知机收敛次数范围,看的不是很懂)

    2)感知器在线性可分的数据上可以保证收敛,但其存在以下不足之处:
      1. 在数据集线性可分时,感知器虽然可以找到一个超平面把两类数据分开,但并不能保证能其泛化能力。
      2. 感知器对样本顺序比较敏感。每次迭代的顺序不一致时,找到的分割超平面也往往不一致。
      3. 如果训练集不是线性可分的,就永远不会收敛。

  3.4.3 参数平均感知器

    1)如果间越大,收敛越快。但是感知器并不能保γ证找到的判别函数是最优的,这样可能导致过拟合;感知器的学习到的权重向量和训练样本的顺序相关。在迭代次序上排在后面的错误样本,比前面的错误样本对最终的权重向量影响更大。

           故提出参数平均感知机来优化上述问题:

    

  3.4.4 扩展到多类分类

 

3.5 支持向量机

    1)支持向量机是一个经典两类分类算法,其找到的分割超平面具有更好的鲁棒性,因此广泛使用在很多任务上,并表现出了很强优势。目的是找到一个超平面将种类划分开来,当间隔最大时,划分效果最好:

    3)同点到直线的距离公式,来计算样本到超平面的距离:

  3.5.1 参数学习

    1)优化方法,拉格朗日乘数法;求偏导;另起为0;算出最优参数值。

         其中,支持向量可称为间隔边缘上的点。

  3.5.2 核函数:

         当样本在二维平面中无法划分时,将样本空间扩展至高纬空间,为了简化计算高纬度Xi与Xj的内积。

         核函数通过在原始空间中Xi、Xj计算在高纬空间中的两者内积,简化计算。

  3.5.3 软间隔

          当样本中的少部分点偏离时,SVM调整时会产生偏差,导致效果不好,为了解决这个问题,就要允许支持向量机在一些样本上出错,称之为软间隔。

3.6 损失函数对比

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值