三、线性模型
线性模型可以用来做回归和分类
3.1分类问题示例
建模:
3.2线性分类模型
二分类问题:
多分类:
(每个类建立一个分类器f1(x,w),在哪个类下得分最高就属于哪个类)
3.3交叉熵与对数似然
p(x)越大,x的信息量I(x)越小;若x不常发生即p(x)越小,x的信息量I(x)越大
p(x)*p(x’):x和x’联合概率分布
I(x,x’):两个信息两和(可加性)
熵是随机变量X的自信息I(x)的数学期望;
I(x)=-log(p(x))
分布越均衡熵越大
交叉熵:
x的真实分布p(x),每个x的自信息 I(x) = -log(q(x))
交叉熵可以用来衡量两个分布的差异 q(x) 和 p(x)
我的理解:两个分布把一个作为信息量,一个作为w加权来算信息量期望
KL散度:
也可以用来衡量两个分布的差异 q(x) 和 p(x)
若q和p一样,则KL散度为0
3.4Logistic回归
以二分类为例:
y*为一个样本的真实条件即p=1时的概率
pr真实分布和pθ预测分布
y^就是pθ(y=1|x)的简写
H(pr,pθ)把预测分布作为自信量,真实分布作为w加权算得交叉熵
一般风险函数还要加上正则项
一步一步向正确的w逼近(w即分类矩阵,y*是真实分布)
求导过程:
https://blog.csdn.net/huanyingzhizai/article/details/89929570
3.5Softmax回归
有多个分类函数f对应每一个类别,然后求得一个个标量再进行分类
softmax函数:
与logistic回归有别,这里的y(n)是向量,而logistic中的是标量
梯度是真实概率和预测概率的区别
3.6感知器(Perceptron)
sgn:大于0取正,小于0取负
3.7支持向量机(SVM)
如果点有一个噪声那很可能会分到另外一边
所以要获得较好的分类器
找最大γ
带了初始变量 ξn
ξ=0;(如果分对)
ξ=1-Yn(WX+b);(如果没分对)
平方损失不适合作为损失函数