深度学习基础----线性模型

最新推荐文章于 2024-02-11 17:38:46 发布

无意识积累中

最新推荐文章于 2024-02-11 17:38:46 发布

阅读量619

点赞数

分类专栏：深度学习基础

本文链接：https://blog.csdn.net/weiwei935707936/article/details/109502744

版权

45 篇文章 5 订阅

订阅专栏

线性回归

目的

试图学得一个线性模型以尽可能地预测实值输出标记(即学w,b)

形式/

向量形式

均方差MSE的推导

梯度下降法:

理解:

需要选择学习率,

是迭代求解,

特征数m很大时不影响

最小二乘法:

理解:

不需要选择学习率,

不是迭代求解:

特征数m很大时计算速度慢

感知机

抽象理解				权重		突触
				偏置		阈值
				激活函数		细胞体
分类模型	二分类线性模型	输入:特征向量输出: 类别(+1, -1)		目标: 求超平面(能将训练数据集正负实例完全正确分开)
距离	点到线:					样本到超平面:
损失函数	正确分类: 错误分类:					目标: 使错误分类的样本到超平面的距离最小
感知机学习算法	输入: 训练数据集学习率		输出: w,b 感知机模型f(x)=sign(wx+b)		过程: 初始化w和b, 通常是全0向量 (2)从训练集获取一个样本(x,y) (3)如果y(wx+b)<=0, 按照梯度更新参数 (4)继续(2)直到没有样本被错误分类
感知机学习算法	假设: 算法执行了n(很多次)次才收敛, 参数的主部是增量. 即w变成ayx,		Gram本质: x*x可以事先由gram矩阵,计算好, 只更新a即可.		过程: 初始化w和b, 通常是全零向量从训练集获取一个样本(x,y) 如果y(axy*x+b)<=0, 则更新参数继续(2)直到没有样本被错误分类		Gram减少运算量: n是维数, N是样本个数 n过高时, 应选择对偶形式算法加速(原始算法主要是w和x的内积) N很大时, 采用原始算法(对偶形式主要是输入实例之间的内积)

逻辑回归

逻辑回归的引入

将激活函数从感知机的”符号函数”替换成了, “sigmoid”函数, 即给出了隶属于各类别的概率

Logistic函数

二分类标签的后验概率

y=1

Y=0

交叉熵+梯度+参数更新

交叉熵:

梯度:

参数更新:

Softmax分类

argmax	如果使用某一类的参数(w, b)使得wx+b最大, 则结果分为该类
目标类别的条件概率		对比逻辑回归:
KL散度, 负对数似然
交叉熵+梯度下降	交叉熵:	梯度下降:
为什么逻辑回归用交叉熵损失而不用MSE?	答: 参数的更新公式中有激活函数, 如果接近0或1就会梯度消失陷入局部极小

关注