线性回归,Logistic回归,Softmax回归的公式推导

线性回归:

原理:y[i] = \theta x[i]+\varepsilon [i], 根据中心极限定理(由很多因素影响的变量,倾向于服从高斯分布),\varepsilon [i]服从高斯分布,p(\varepsilon [i] | \theta,x)式子写出来,再把式子里面的\varepsilon [i]替换成(y[i]-\thetax[i]),  p(\varepsilon [i] | \theta,x)和p(y[i] | \theta,x)是等价的,所以p(y[i] | \theta,x)也服从自变量是(y[i]-\thetax[i])的高斯分布;目标是使得似然函数最大,即所有样本i的p(y[i] | \theta,x)连乘最大,高斯分布们连乘,取对数,得到最小化(y[i]-\thetax[i])^2们相加;

解析解的求解:把所有样本写成矩阵X(每行一个样本), 目标是最小化(X\theta -y)和自己的内积,等价于(X\theta - y)^{T}(X\theta - y); 对\theta求导使其等于0,经过推导可得\theta的最优取值;

梯度下降求解:(y[i]-\theta x[i])^2对\theta求导,得到梯度;\theta沿梯度的负方向前进,可使(y[i]-\theta x[i])^2尽快往局部最小值走去;

加2次项正则的,叫Ridge回归;加1次项正则的,叫LASSO回归;2次项正则效果更好,1次项正则有稀疏化参数的作用;

线性回归优点:可解释(参数表示每个维度的重要性);缺点:对异常值敏感;对非线性数据拟合不好(可以引入2阶或者高阶特征)

 

Logistic回归:

定义函数p(x)=sigmoid(x),p'(x)=p(x)*(1-p(x))

二分类任务,分为正例的概率p(x | \theta) = sigmoid(\thetax)

训练的目标是最大化似然函数(所有训练样本的(p(x[i] | \theta)^y[i])*((1-p(x[i] | \theta)^(1-y[i])) 的乘积), 取对数,前面加负号,就变成了最小化对数似然之和,也就是交叉熵损失函数的样子;

损失函数求导技巧(应用复合函数求导的链式法则,写成连乘形式,每次解决一小步):设p=sigmoid(z), z=\thetax;先把损失函数对p求导,乘上p对z求导(等于p(1-p)),乘上z对\theta求导(等于x);结果检查:线性回归,Logistic回归,softmax回归,这三者的梯度都长得一模一样

xgboost做二分类任务时,用的就是拟合z!

 

softmax回归的公式推导

原理:极大似然-->负对数损失函数;一共K个分界面(K个\theta [k]);训练时,每个batch要对这K个分界面求梯度,用梯度下降分别更新这K个分界面。

求导技巧:可以先对一个样本求导,省得每次都要写样本ID的i;  可以先对\theta [k]*x整体作为变量z[k],损失函数L对z[k]求导;中间有一步求\sum_{}^{i}{e}^{i}对z[k]的导数,要分成2种情况:i=k时和i<>k时;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值