M-P神经元
1.M-P神经元(模拟生物行为的数学模型):接手n个输入(来自其他的神经元),并给各个输入赋予权重计算加权和,再跟自己特有的阀值
θ
θ
θ比较(通常用减法),最后经过激活函数(模拟“抑制”和激活)处理得到输出(一般输出传给下个神经元)
y
=
f
(
∑
x
=
1
n
w
i
x
i
−
θ
)
=
f
(
w
T
x
+
b
)
y=f(\sum\limits_{x=1}^nw_ix_i-θ)=f(w^Tx+b)
y=f(x=1∑nwixi−θ)=f(wTx+b)
单个M-P神经元:感知机(sgn做激活函数)、对数几率回归(sigmoid作激活函数)多个M-P神经元:神经网络
感知机
1.感知机模型:激活函数送给你(阶跃函数)的神经元
y
=
s
g
n
(
w
T
X
−
θ
)
=
{
1
w
T
−
θ
≥
0
0
w
T
−
θ
<
0
y=sgn(w^TX-θ)=\left\{ \begin{array}{rcl} 1 & & {w^T- θ ≥ 0}\\ 0 & & {w^T- θ < 0} \end{array} \right.
y=sgn(wTX−θ)={10wT−θ≥0wT−θ<0
其中,
x
∈
R
n
x∈R^n
x∈Rn为样本向量,是感知神经网络模型的输入,
w
,
θ
是
感
知
机
模
型
参
数
,
w
∈
R
n
为
权
重
,
θ
为
阈
值
w,θ是感知机模型参数,w∈R^n为权重,θ为阈值
w,θ是感知机模型参数,w∈Rn为权重,θ为阈值
2.再从几何角度来说,给定一个线性可分的数据集
T
T
T,感知机的学习目标是求得能对收据集
T
T
T中的正负样本完全正确划分的超平面,其中
w
T
x
−
θ
w^Tx-θ
wTx−θ即平面方程。n维空间的超平面
(
w
T
x
+
b
=
0
,
其
中
w
,
x
∈
R
n
)
(w^Tx+b=0,其中w,x∈R^n)
(wTx+b=0,其中w,x∈Rn)
(1)超平面方程不唯一
(2)法向量
w
垂
直
于
超
平
面
w垂直于超平面
w垂直于超平面
(3)法向量
w
w
w和位移项b确定一个超平面
(4)法向量
w
指
向
的
那
一
半
空
间
w指向的那一半空间
w指向的那一半空间为正空间,另一半为负空间
3.感知机学习策略:随机初始化
w
,
b
w,b
w,b将全体训练样本代入模型找出误分类样本,假设此时误分类样本集合为
M
恒
属
于
T
M恒属于T
M恒属于T,对任意的一个误分类样本
(
w
,
y
)
∈
M
来
说
(w,y)∈M来说
(w,y)∈M来说,当
w
T
x
−
θ
≥
0
w^Tx-θ≥0
wTx−θ≥0时,模型输出的值
y
=
1
y=1
y=1,样本真实标记为
y
=
0
y=0
y=0;反之,当
w
T
x
−
θ
<
0
w^Tx-θ<0
wTx−θ<0时模型输出值为
y
=
0
y=0
y=0,样本真实标记为
y
=
1
y=1
y=1.综合两种情形可知,以下公式恒成立。
(
y
1
−
y
)
(
w
T
x
−
θ
)
≥
0
(y^1-y)(w^Tx-θ)≥0
(y1−y)(wTx−θ)≥0
所以给定数据集
T
T
T,其损失函数可以定义为:
L
(
w
,
θ
)
=
∑
x
∈
M
(
y
1
−
y
)
(
w
T
x
−
θ
)
L(w,θ)=\sum\limits_{x∈M}(y^1-y)(w^Tx-θ)
L(w,θ)=x∈M∑(y1−y)(wTx−θ)
显然,此损失函数是非负数,如果没有误分类点,损失函数值是O,而且,误分类越少,离平面越近,损失函数值就越小
感知机
3.1具体地,给定数据集。
T
=
(
x
1
,
y
1
)
(
x
2
,
y
2
)
.
.
.
.
.
.
(
x
n
,
y
n
)
T={(x_1,y_1)(x_2,y_2)......(x_n,y_n)}
T=(x1,y1)(x2,y2)......(xn,yn)
其
中
x
i
∈
R
n
,
y
i
∈
0
,
1
,
求
参
数
w
,
θ
其中x_i∈R^n,y_i∈{0,1},求参数w,θ
其中xi∈Rn,yi∈0,1,求参数w,θ使其为极小损失函数的解:
m
i
n
w
,
θ
L
(
w
,
θ
)
=
m
i
n
w
,
θ
∑
x
i
∈
M
(
y
1
−
y
)
(
w
T
x
−
θ
)
min_{w,θ}L(w,θ)=min_{w,θ}\sum\limits_{x_i∈M}(y^1-y)(w^Tx-θ)
minw,θL(w,θ)=minw,θxi∈M∑(y1−y)(wTx−θ)其中
M
恒
属
于
T
为
误
分
类
样
本
集
合
。
若
将
阈
值
θ
看
做
一
个
固
定
输
入
为
−
1
的
“
亚
节
点
”
M恒属于T为误分类样本集合。若将阈值θ看做一个固定输入为-1的“亚节点”
M恒属于T为误分类样本集合。若将阈值θ看做一个固定输入为−1的“亚节点”
即
−
θ
=
−
1
∗
w
n
+
1
=
x
n
+
1
∗
w
n
+
1
-θ=-1*w_{n+1}=x_{n+1}*w_{n+1}
−θ=−1∗wn+1=xn+1∗wn+1
根据该公式,可将要求的极小化问题进一步化解
m
i
n
w
L
(
w
)
=
m
i
n
w
∑
x
∈
M
(
y
1
−
y
)
w
T
x
i
min_wL(w)=min_w\sum\limits_{x∈M}(y^1-y)w^Tx_i
minwL(w)=minwx∈M∑(y1−y)wTxi
4.感知机学习算法:当误分类样本集合M固定时,那么可以求得损失函数
L
(
w
)
=
∑
x
i
∈
M
(
y
1
−
y
i
)
x
i
L(w)=\sum\limits_{x_i∈M}(y^1-y_i)x_i
L(w)=xi∈M∑(y1−yi)xi
感知机学习算法具体采用的是随机梯度下降法,也就是极小化过程中不是一次使M中所有误分点的梯度下降,而是一次随机选取一个误分类点使其梯度下降。所以权重
w
w
w的公式更新为
w
<
−
w
+
Δ
w
w<-w+Δw
w<−w+Δw
Δ
w
=
−
η
(
y
1
−
y
i
)
x
i
=
η
(
y
i
−
y
i
1
)
Δw=-η(y^1-y_i)x_i=η(y_i-y_i^1)
Δw=−η(y1−yi)xi=η(yi−yi1)
相应地,
w
中
某
个
分
离
w
i
w中某个分离w_i
w中某个分离wi的更新公式