目录
(1)模型介绍:Softmax回归中,首先还是利用线性函数作特征的映射(判别函数)
线性模型
- 线性模型(Linear Model)是机器学习中应用最广泛的模型,指通过样本特征的线性组合来进行预测的模型。
给定一个 𝐷 维样本 𝒙 = 𝑥 1 , ⋯ , 𝑥 𝐷 T其线性组合函数为![]()
- 线性回归是一种典型的线性模型:输出的标签是连续值------回归问题
- 分类问题:输出目标 𝑦 是一些离散的标签。
而特征的线性组合本身是连续值,即f(x;w)的值域为实数。需要引入一个非线性的决策函数 g(.),使输出符合预期离散值的目标。![]()
- 二分类问题:
![]()
例如,在二分类问题中,决策函数 g(⋅) 可以是符号函数
1、Logistic回归
可以看作预测值为“标签的对数几率”的线性回归模型。因此, Logistic 回归也称为对数几率回归。![]()
(1)模型介绍:将分类决策问题看作条件概率估计问题
- 先用线性函数组合特征:
,
- 引入非线性函数𝑔(.)来计算类别标签的条件概率 𝑝 (𝑦 = 𝑐 | 𝒙) ,其中𝑐 ∈ {0,1}。函数g(.) 把线性函数的值域从实数区间“挤压”到了(0,1)之间,可以用来表示概率。
- 那么如何构建函数g(.) ? 采用Logistic函数
- 然后利用𝑔(.)= σ(𝒙) 作非线性决策,
(2)学习准则:
- 模型预测条件概率:
- 真实条件概率:对于一个样本 𝒙, 𝑦∗ ,属于不同类别的概率分别为
- 那么我们应该如何定义损失函数,衡量两个条件概率𝑝𝑤(𝑦|𝒙) 和𝑝𝑟(𝑦|𝒙)之间的差异?
补充:
熵:在信息论中,熵用来衡量一个随机事件的不确定性。
熵越高,则随机变量的信息越多;熵越低,则随机变量的信息越少 。
在对分布 𝑝(𝑥) 的信息进行编码时,熵 𝐻(𝑝) 也是理论上最优的平均编码长度,这种编码方式称为熵编码。![]()
交叉熵:是按照概率分布 𝑞 的最优编码方式对真实分布为 𝑝 的信息进行编码的长度。在给定 𝑝 的情况下, 如果 𝒒 和 𝒑 越接近,交叉熵越小 。如果 𝑞 和 𝑝 差别越大,交叉熵就越大。![]()
- 逻辑回归使用交叉熵作为损失函数
![](https://img-blog.csdnimg.cn/2b0eaa619d174e048f61fbd25fdf3a5f.png)
(3)优化算法:梯度下降
基于交叉熵损失函数,模型在训练集的风险函数为:
![](https://img-blog.csdnimg.cn/6a02a6e2d20b41e9a7eb076a04531650.png)
梯度为:
(4)小结
![](https://img-blog.csdnimg.cn/f22ed34045a14bb6a32497655d22cb01.png)
2、Softmax回归
Softmax Regression,也称为多项(Multinomial)或多类 (Multi-Class)的 Logistic 回归,是 Logistic 回归在多分类问题上的推广。
(1)模型介绍:Softmax回归中,首先还是利用线性函数作特征的映射(判别函数)
利用softmax函数作为非线性的决策函数
(2)学习准则:
(3)小结:
3、感知机
感知机 由 Frank Rosenblatt 于1958年提出,是 一种广泛使用的线性分类器 。 感知器可谓是最简单的人工神经网络, 只有一个神经元。模拟生物神经元行为的机器,有与生物神经元相对应的部件,如权重(突触)、 偏置(阈值)及激活函数(细胞体),输出为+1或-1
(1)模型:
函数是连续可微且可导的,
(2)学习算法:一种错误驱动的在线学习算法,
- 先初始化一个权重向量𝒘 ← 0(通常是全零向量);
- 当每次分错一个样本(𝒙, 𝑦)时,即
,那么就用
这个样本来更新权重。
根据感知器的学习策略,可以反推出感知器的损失函数为
此处的0:表示样本分对了,最小损失就是没有损失
(3)优化算法:采用随机梯度下降,对损失函数每次更新参数
(4)小结:
4、线性分类模型小结
基础知识是后续深度学习的基石。
![](https://img-blog.csdnimg.cn/2a2dc4b6c1804d4981dc26d76d772d62.png)