线性模型

最新推荐文章于 2024-07-20 00:22:05 发布

张小彬的代码人生

最新推荐文章于 2024-07-20 00:22:05 发布

阅读量1.1k

点赞数

分类专栏：机器学习文章标签：线性模型逻辑回归

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangxb35/article/details/50709270

版权

机器学习专栏收录该内容

22 篇文章 7 订阅

订阅专栏

Linear Regression 线性回归

1. hypothesis function

又叫决策函数（decision function），这里是线性模型， $\theta$ 是参数。

h θ (x) = \sum i = 0 n θ i x i = θ T x

$h_\theta(x)=\sum_{i=0}^n\theta_ix_i=\theta^Tx$

2. cost function

这里是最小二乘法，least squares function

J (θ) = 1 2 \sum i = 1 m (h θ (x (i) - y (i))) 2

$J(\theta)=\frac12\sum_{i=1}^m(h_\theta(x^{(i)}-y^{(i)}))^2$

3. gradient descent

梯度下降，要沿着最抖的（steepest）梯度方向更新参数

θ j = θ j - α \partial \partial θ j J (θ)

$\theta_j = \theta_j - \alpha\frac{\partial}{\partial\theta_j}J(\theta)$

3.1 batch gradient descent

可直接从公式2和3推导得到，称批梯度下降，ｉ是内循环

θ j = θ j - α \sum i = 1 m (y (i) - h θ (x (i))) x (i) j

$\theta_j = \theta_j - \alpha\sum_{i=1}^{m}(y^{(i)} - h_\theta(x^{(i)}))\ x_j^{(i)}$

3.2 stochastic gradient descent

若是每来一个参数就更新参数，就是随机梯度下降，ｉ是外循环

θ j = θ j - α (y (i) - h θ (x (i))) x (i) j

$\theta_j = \theta_j - \alpha\ (y^{(i)} - h_\theta(x^{(i)}))\ x_j^{(i)}$

Logistic Regression

redefine hypothesis

h θ (x) = g (θ T x)

$h_\theta(x)=g(\theta^Tx)$
where

g (z) = 1 1 + e - z

$g(z)=\frac{1}{1+e^{-z}}$

g(z) $g(z)$ 是 logistic function，或者叫 sigmoid function。

Logistic Classification

P (y = 1 | x; θ) = h θ (x)

$P(y=1\ |\ x;\theta) = h_\theta(x)$

P (y = 0 | x; θ) = 1 - h θ (x)

$P(y=0\ |\ x;\theta) = 1- h_\theta(x)$
合并后

p (y | x; θ) = (h θ (x)) y (1 - h θ (x)) 1 - y

$p(y\ |\ x; \theta) = (h_\theta(x))^y(1-h_\theta(x))^{1-y}$
带入所有的样本点，并用最大似然估计，最大化似然函数

Perceptron Learning Algorithm 感知机

redefine

g (z) = {10 i f z \geq 0 i f z < 0

$g(z) = \left\{ \begin{aligned} 1 & \quad if\ z \geq 0 \\ 0 & \quad if z < 0 \\ \end{aligned} \right.$

Newton’s Methods 牛顿法与拟牛顿法

若要求函数 $f(\theta)$ 的零点，除了直接求解析解和前面讲过的梯度下降之外，也可以用牛顿法。
更新规则如下：

θ : = θ - f ( θ ) f ' ( θ )

$\theta := \theta - \frac{f(\theta)}{f'(\theta)}$
这个原理从几何作图上比较好理解，然而我懒得画图。

当然，若是求函数 $l\prime(\theta)$ 的极值，相当于求其导数的零点，因此转化成了

θ : = θ - l ' ( θ ) l '' ( θ )

$\theta := \theta - \frac{l'(\theta)}{l''(\theta)}$

在 LR 中，参数 $\theta$ 是向量值，所以我们也要把牛顿法推广到多维的设定，称牛顿－拉夫逊方法（Newton-Raphson method）

θ = θ - H - 1 \nabla θ l (θ)

$\theta = \theta - H^{-1}\nabla_\theta l(\theta)$
其中

H $H$ 是海森矩阵，定义为：

H i j = \partial 2 l ( θ ) \partial θ i \partial θ j

$H_{ij} = \frac{\partial^2l(\theta)}{\partial\theta_i\partial\theta_j}$
后面的

∇θl(θ) $\nabla_\theta l(\theta)$ 表示

l(θ) $l(\theta)$ 对

θ $\theta$ 的偏导。

由于需要去求海森矩阵的逆矩阵 $H^{-1}$ 很复杂和耗费计算量，所以可以用拟牛顿法，即用矩阵 G 近似代替 $H^{-1}$ ，可以用下面几种算法实现。

DFP算法
BFGS算法
Broyden类算法

The Exponential Family 指数家族

Softmax Regression 多分类问题

张小彬的代码人生

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

张小彬的代码人生

博客等级

码龄12年

85
原创

271
点赞

842
收藏

461
粉丝

关注

私信

热门文章

分类专栏

c/c++ 7篇
算法 17篇
java入门 9篇
数据结构 3篇
杂 6篇
android 2篇
Linux 12篇
机器学习 22篇
线性代数 6篇
研究生课程 5篇
MLaPP 12篇
cs231n 5篇
NLP 4篇
论文 1篇

最新评论

cs231n 课程作业 Assignment 3
Faker1907: LSTM中，ht的公式写错了，我说求导怎么不一致。。
RNN, LSTM, GRU 公式总结
fire-zhang: 楼主，请问你文中提到的 Alex Graves 的论文中的LSTM是否就是 Wiki LSTM中的第三种 Peephole convolutional LSTM ？
cs231n 课程作业 Assignment 2
djmhhh: optim.py里面最后Adam代码写错了
动态规划（三）背包问题
another_wood: csdn排版不太对, 粘贴到word里排版一下再读哈
动态规划（三）背包问题
another_wood: 尝试回答一下最后那个问题, 为什么j 从小到大循环时, 此时算的是可重复的背包问题? 下边这段代码是怎样解可重复的背包问题 [/code] procedure CompletePack(cost,weight) for i = 0..n for v=cost..V f[i][v]=max{f[i][v],f[i][v-c[j]]+w[j]} [code=cpp] f[i][v - c[i]]中可能已经取过了第j个物体, 而f[i][v]能够再次取到第j个物体, 因此是重复背包.

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。