1.感知机:线性模型,就是一条线
输入x,权重w,偏移b。感知机输出 0 或1
当<w,x>+b内积和>0 输出1
当<w,x>+b内积和<0 输出-1
其实就是二分类问题。1或-1
[回归]输出实数
[softmax]输出概率
2.训练感知机
yi是真实值【1或-1】
[<w,x>+b]是预测值【1或-1】
yi * [<w,x>+b] >0说明结果正确
yi * [<w,x>+b] <=0 说明预测错误。就要进行w,b参数的更新,等价于 学习率为1的随机梯度下降
等价于损失函数:
分类正确,结果是0
分类错误,结果是正数。max对数值大的求导
3.收敛定理
1.数据在半径r内
2.余量p分成两类
分类正确,
3.单层感知机存在的问题,不能拟合XOR函数,只产生线性分割面
输入x,y相同,输出-1
输入x,y不同,输出1
感知机就是一条分割线,不能分割了。
总结:
1.感知机是一个二分类模型。
2.求解算法等价于批量大小1的梯度下降
3.不能拟合XOR函数。
二 多层感知机
1.先学习 蓝线
在学习 黄线
组合起来
2.考虑单分类的问题
1.
是n维向量
2.
隐藏层的大小是m
3.输出层 长为m的向量
3.为什么要用非线性激活函数?
如果是线性就分不开XOR函数了,就是单层感知机了
3.激活函数
Sigmoid激活函数:
将输入投影到(0,1)是一个软的
sigmoid函数:
激活函数2
Tanh激活函数将输入的投影到(-1,1)
最常用的激活函数ReLU函数
ReLU(x) = max(x,0)
好处:不用指数运算,算起来很贵。这样算起来就很快
多类分类