线性回归与感知机
线性回归
线性回归是利用数理统计中回归分析,确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。即利用一条曲线(直线)去尽量拟合数据,并使用拟合的曲线来预测任意变量对应的值。
线性回归要素
训练集:也称训练数据,即输入的数据,一般用
x
x
x表示
输出数据:一般用
y
y
y表示
模型:假设,即拟合的函数,一般用
y
=
h
(
x
)
y = h(x)
y=h(x)表示
训练集的条目数:一条训练数据由一对输入数据和输出数据组成,输入数据的维度
n
n
n为特征的个数
线性回归问题求解
假设拟合函数和
n
+
1
n+1
n+1个因素有关,令
θ
=
[
θ
0
,
θ
1
,
.
.
.
,
θ
n
]
\theta = [\theta_0,\theta_1,...,\theta_n]
θ=[θ0,θ1,...,θn],
x
=
[
1
,
x
1
,
x
2
,
.
.
.
,
x
n
]
x=[1,x_1,x_2,...,x_n]
x=[1,x1,x2,...,xn],则有:
y
=
h
θ
(
x
)
=
θ
T
x
y = h_\theta(x) = \theta^T x
y=hθ(x)=θTx
假设给定样本
(
x
(
i
)
,
y
(
i
)
)
(x^{(i)},y^{(i)})
(x(i),y(i)),构造代价(误差、损失)函数,此损失函数为均方根形式:
J
(
θ
)
=
1
2
∑
i
(
y
(
i
)
−
h
θ
(
x
(
i
)
)
)
2
J(\theta) = \frac1 2\sum_i \left(y^{(i)}-h_\theta\left(x^{(i)}\right)\right)^2
J(θ)=21i∑(y(i)−hθ(x(i)))2
目标:找到超平面参数
θ
\theta
θ使
J
(
θ
)
J(\theta)
J(θ)最小,即求解
min
θ
J
(
θ
)
\min_\theta J(\theta)
minθJ(θ)
θ
=
(
X
T
X
)
−
1
X
T
y
\theta = \left(X^TX\right)^{-1}X^Ty
θ=(XTX)−1XTy
线性二分类
线性分类器透过特征的线性组合分类,即通过直线(或超平面)分类
线性二分类问题求解
构造二分类的“分界直线”,一边为负,一边为正,距离分界线越远,其归为对应类的概率越大。
对于概率的求解使用sigmoid函数:
y
=
1
1
+
exp
(
−
z
)
z
=
θ
1
x
1
+
θ
2
x
2
+
θ
0
y = \frac{1}{1+\exp(-z)}\\[2mm] z = \theta_1x_1+ \theta_2x_2+ \theta_0
y=1+exp(−z)1z=θ1x1+θ2x2+θ0
sigmoid函数满足:
y
′
=
y
(
1
−
y
)
y' = y(1-y)
y′=y(1−y)
假设给定样本
(
x
(
i
)
,
y
(
i
)
)
(x^{(i)},y^{(i)})
(x(i),y(i)),其中
y
(
i
)
y^{(i)}
y(i)只能取0和1,构造代价(误差、损失)函数:
J
(
θ
)
=
1
2
∑
i
(
y
(
i
)
−
h
θ
(
x
(
i
)
)
)
2
J(\theta) = \frac1 2\sum_i \left(y^{(i)}-h_\theta\left(x^{(i)}\right)\right)^2
J(θ)=21i∑(y(i)−hθ(x(i)))2
其中:
h
θ
(
x
(
i
)
)
=
1
1
+
exp
(
−
θ
T
x
(
i
)
)
h_\theta\left(x^{(i)}\right) = \frac{1}{1+\exp(-\theta^Tx^{(i)})}
hθ(x(i))=1+exp(−θTx(i))1
目标:找到超平面参数 θ \theta θ使 J ( θ ) J(\theta) J(θ)最小,即求解 min θ J ( θ ) \min_\theta J(\theta) minθJ(θ)
此类回归问题称为softmax回归
对于这种非线性问题求解采用梯度下降法:
J
(
θ
k
+
1
)
=
J
(
θ
k
)
+
[
d
J
d
θ
]
T
Δ
θ
k
Δ
θ
k
=
−
α
d
J
d
θ
J(\theta_{k+1}) = J(\theta_{k})+\left[\frac{dJ}{d\theta}\right]^T\Delta\theta_k\\[2mm] \Delta\theta_k = -\alpha\frac{dJ}{d\theta}
J(θk+1)=J(θk)+[dθdJ]TΔθkΔθk=−αdθdJ
对数回归
对于二分类问题从概率角度描述:
P
(
y
(
i
)
=
1
∣
x
(
i
)
)
=
h
θ
(
x
(
i
)
)
P
(
y
(
i
)
=
0
∣
x
(
i
)
)
=
1
−
P
(
y
=
1
∣
x
(
i
)
)
=
1
−
h
θ
(
x
(
i
)
)
P(y^{(i)}=1|x^{(i)}) = h_\theta(x^{(i)})\\[2mm] P(y^{(i)}=0|x^{(i)}) = 1-P(y=1|x^{(i)}) = 1-h_\theta(x^{(i)})
P(y(i)=1∣x(i))=hθ(x(i))P(y(i)=0∣x(i))=1−P(y=1∣x(i))=1−hθ(x(i))
修改损失函数为:
J
(
θ
)
=
−
∑
i
(
y
(
i
)
)
log
(
h
θ
(
x
(
i
)
)
)
+
(
1
−
y
(
i
)
)
log
(
1
−
h
θ
(
x
(
i
)
)
)
J(\theta) = -\sum_i (y^{(i)})\log(h_\theta(x^{(i)}))+(1-y^{(i)})\log(1-h_\theta(x^{(i)}))
J(θ)=−i∑(y(i))log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))
对其最小化,有:
Δ
θ
J
(
θ
)
=
∑
i
x
(
i
)
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
\Delta_\theta J(\theta) = \sum_i x^{(i)}(h_\theta(x^{(i)})-y^{(i)})
ΔθJ(θ)=i∑x(i)(hθ(x(i))−y(i))
神经元模型与作用函数
神经元模型
- 生物神经元模型
- 人工神经元模型
- 单神经元模型
设 z = ∑ j w j x j − θ = w T x z = \sum_jw_jx_j-\theta = w^Tx z=∑jwjxj−θ=wTx,则有: y = f ( z ) y = f(z) y=f(z),并且 f ( z ) = 1 , z ≥ 0 ; 0 , x < 0 f(z) = 1,z\ge0;0,x<0 f(z)=1,z≥0;0,x<0
作用函数
非对称型log sigmoid函数,用于分类问题求解:
f
(
x
)
=
1
1
+
exp
(
−
β
x
)
f(x) = \frac{1}{1+\exp(-\beta x)}
f(x)=1+exp(−βx)1
对称型tangent sigmoid函数,用于拟合问题求解:
f
(
x
)
=
1
−
exp
(
−
β
x
)
1
+
exp
(
−
β
x
)
f(x) = \frac{1-\exp(-\beta x)}{1+\exp(-\beta x)}
f(x)=1+exp(−βx)1−exp(−βx)
对称型阶跃函数,具有阶跃作用,称为阈值逻辑单元:
f
(
x
)
=
1
,
x
≥
0
;
−
1
,
x
<
0
f(x) = 1,x\ge0;-1,x<0
f(x)=1,x≥0;−1,x<0
感知机模型
感知机(perceptron)是Rosenblatt于1957年提出的模型,是神经网络和支持向量机的基础
点到超平面的距离:
d
=
w
T
x
∣
∣
w
∣
∣
d = \frac{w^Tx}{||w||}
d=∣∣w∣∣wTx
感知机从输入到输出的模型如下:
y
=
f
(
x
)
=
s
i
g
n
(
w
T
x
)
s
i
g
n
(
x
)
=
−
1
,
x
<
0
;
1
,
x
≥
0
y = f(x) = sign(w^Tx)\\[2mm] sign(x) = -1,x<0;1,x\ge0
y=f(x)=sign(wTx)sign(x)=−1,x<0;1,x≥0
对于样本
(
x
(
i
)
,
y
(
i
)
)
(x^{(i)},y^{(i)})
(x(i),y(i)),如果样本正确分类,则有:
y
(
i
)
(
w
T
x
(
i
)
)
∣
∣
w
∣
∣
>
0
,
正确分类
y
(
i
)
(
w
T
x
(
i
)
)
∣
∣
w
∣
∣
<
0
,
错误分类
\frac{y^{(i)}(w^Tx^{(i)})}{||w||}>0,正确分类\\[2mm] \frac{y^{(i)}(w^Tx^{(i)})}{||w||}<0,错误分类
∣∣w∣∣y(i)(wTx(i))>0,正确分类∣∣w∣∣y(i)(wTx(i))<0,错误分类
损失函数定义如下:
L
(
w
)
=
−
1
∣
∣
w
∣
∣
∑
y
(
i
)
(
w
T
x
(
i
)
)
L(w) = -\frac{1}{||w||}\sum y^{(i)}(w^Tx^{(i)})
L(w)=−∣∣w∣∣1∑y(i)(wTx(i))
找到超平面参数
w
∗
w^*
w∗满足:
L
(
w
∗
)
=
min
w
∑
y
(
i
)
(
w
T
x
(
i
)
)
L(w^*) = \min_w \sum y^{(i)}(w^Tx^{(i)})
L(w∗)=wmin∑y(i)(wTx(i))