线性模型介绍
线性模式是试图学得一个通过属性的线性组合来进行与预测的函数
即
f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x) = w_1x_1 + w_2x_2 + ... + w_dx_d + b f(x)=w1x1+w2x2+...+wdxd+b
向量形式写成
f ( x ) = w T x + b f(x) = w^Tx + b f(x)=wTx+b
线性模型形式简单、易于建模、具有很好的可解释性,而线性回归、逻辑回归都是经典的线性模型。
线性回归
现在假设有如下数据
X1 | X2 | ... | Y |
---|---|---|---|
a1 | b2 | ... | y1 |
a1 | b2 | ... | y2 |
... | ... | ... | ... |
“线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标,设置拟合平面(即找到一条合适的直线来拟合数据):
H θ ( X ) = θ 0 + θ 1 X 1 + θ 2 X 2 + . . . H_\theta(X)=\theta_0+\theta_1X_1 +\theta_2X_2 +... Hθ(X)=θ0+θ1X1+θ2X2+...
1 、 θ 0 是 偏 置 项 ( 上 下 浮 动 , 与 数 据 无 关 ) , 对 结 果 影 响 小 。 1、\theta_0 是偏置项(上下浮动,与数据无关),对结果影响小。~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 1、θ0是偏置项(上下浮动,与数据无关),对结果影响小。
2 、 θ 1 和 θ 2 是 特 征 参 数 ( 权 重 参 数 ) , 对 结 果 影 响 较 大 。 2、\theta_1 和 \theta_2 是特征参数(权重参数),对结果影响较大。~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 2、θ1和θ2是特征参数(权重参数),对结果影响较大。
3 、 X 1 和 X 2 是 特 征 数 据 。 3、X_1 和 X_2是特征数据。~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 3、X1和X2是特征数据。
对数据进行整合得:
H θ ( x ) = ∑ θ i 2 x i = θ T X = θ 0 x 0 + θ 1 X 1 + θ 2 X 2 + . . H_\theta(x) = \sum \theta_i 2x_i = \theta^TX = \theta_0x_0+\theta_1X_1+\theta_2X_2 +.. Hθ(x)=∑θi2xi=θTX=θ0x0+θ1X1+θ2X2+..
给 原 式 增 加 了 一 列 x 0 , 而 x 0 这 一 列 值 都 为 1 , 即 θ 0 x 0 = θ 0 值 还 是 没 有 改 变 给原式增加了一列x_0,而x_0这一列值都为1,即 \theta_0x_0 = \theta_0 值还是没有改变 给原式增加了一列x0,而x0这一列值都为1,即θ0x0=θ0值还是没有改变
误差
真实值和预测值之间的差异,用 ϵ 表示,它是独立的并且具有相同的分布函数,服从均值 μ=1、方差 σ2=0 的高斯分布(正态分布) N(0,1)。
对每个样本:
y
i
=
θ
T
x
i
+
ϵ
i
(
1
)
y^i = \theta^Tx^i + ϵ^i ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(1)
yi=θTxi+ϵi (1)
y
i
为
真
实
值
,
θ
T
x
i
为
预
测
值
y^i为真实值,\theta^Tx^i为预测值~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
yi为真实值,θTxi为预测值
因为误差服从高斯分布:
p
(
ϵ
i
)
=
1
2
π
σ
2
e
−
(
ϵ
i
)
2
2
σ
2
(
2
)
p(ϵ^i) = \frac{1}{\sqrt 2π~σ^2} e^{-\frac{ (ϵ^i)^2}{2σ^2}}~~~~~~~~~~~~~~~~~~~~~~(2)
p(ϵi)=2π σ21e−2σ2(ϵi)2 (2)
将(1)带入(2)中得:
p
(
y
i
∣
x
i
;
θ
)
=
1
2
π
σ
2
e
−
(
y
i
−
θ
T
x
i
)
2
2
σ
2
p(y^i|x^i;\theta) = \frac{1}{\sqrt 2π~σ^2} e^{-\frac{ (y^i - ~\theta^Tx^i)^2}{2σ^2}}~~~~~~~~~~
p(yi∣xi;θ)=2π σ21e−2σ2(yi− θTxi)2
引入似然函数:
求
解
出
什
么
样
的
参
数
跟
数
据
组
合
后
更
加
接
近
真
实
值
求解出什么样的参数跟数据组合后更加接近真实值~~~~~~~~~~~~~~~~~~~~~~~~~~~~
求解出什么样的参数跟数据组合后更加接近真实值
L
(
θ
)
=
∏
i
=
1
m
p
(
y
i
∣
x
i
;
θ
)
L(\theta) = \prod_{i=1}^m p(y^i | x^i;\theta) ~~~~~~~~~~~~~~~~~~~~~~~~~
L(θ)=i=1∏mp(yi∣xi;θ)
=
∏
i
=
1
m
1
2
π
σ
2
e
−
(
y
i
−
θ
T
x
i
)
2
2
σ
2
= \prod_{i=1}^m \frac{1}{\sqrt 2π~σ^2} e^{-~\frac{ (y^i - ~\theta^Tx^i)^2}{2σ^2}}
=i=1∏m2π σ21e− 2σ2(yi− θTxi)2
引入最大似然函数:
求
解
出
什
么
样
的
概
率
可
以
让
结
果
成
为
真
实
值
的
概
率
越
大
越
好
求解出什么样的概率可以让结果成为真实值的概率越大越好~~~~~~~~~~~~
求解出什么样的概率可以让结果成为真实值的概率越大越好
引入对数似然:
可
以
将
似
然
函
数
中
的
累
乘
∏
转
换
为
∑
,
方
便
进
行
计
算
可以将似然函数中的累乘\prod转换为\sum ,方便进行计算~~~~~~~~~~~~~~~~~
可以将似然函数中的累乘∏转换为∑,方便进行计算
下面是推导过程:
逻辑回归
逻辑回归与线性回归进行回归学习不同,它做的是分类任务
引入Sigmoid函数
g
(
z
)
=
1
1
+
e
−
z
g(z) = \frac{1}{1 + e^{-z}}
g(z)=1+e−z1
z
=
θ
T
x
z = \theta^Tx
z=θTx
Sigmoid函数的作用
我们在线性回归中可以得到预测值,通过Sigmoid函数我们可以把这些预测值映射到0-1的取值区间上,完成由值到概率的转换,也就是分类任务。但是这些预测值必须是实数。
我们以二分类为例,假设有 y = 1 和 y = 0 两种可能,下面为两种取值的概率:
y
=
1
的
概
率
:
p
(
y
=
1
∣
x
;
θ
)
=
h
θ
(
x
)
y = 1 ~的概率:~~~~~~~~~~~~~~~~~~~~~~~~~p(y=1|x;\theta) = h_\theta(x)
y=1 的概率: p(y=1∣x;θ)=hθ(x)
y
=
0
的
概
率
:
p
(
y
=
0
∣
x
;
θ
)
=
1
−
h
θ
(
x
)
y = 0 ~的概率:~~~~~~~~~~~~~~~~~~p(y=0|x;\theta) = 1 - h_\theta(x)
y=0 的概率: p(y=0∣x;θ)=1−hθ(x)
整
合
后
的
概
率
:
p
(
y
∣
x
;
θ
)
=
(
h
θ
(
x
)
)
y
(
1
−
h
θ
(
x
)
)
1
−
y
整合后的概率:~~p(y|x;\theta) = (h_\theta(x))^y(1 - h_\theta(x))^{1-y}
整合后的概率: p(y∣x;θ)=(hθ(x))y(1−hθ(x))1−y
整合后概率解释:
对
于
二
分
类
任
务
(
0
,
1
)
整
合
后
对于二分类任务(0,1)整合后~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
对于二分类任务(0,1)整合后
y
=
0
时
表
达
式
为
:
p
(
y
∣
x
;
θ
)
=
1
−
h
θ
(
x
)
y=0时表达式为:p(y|x;\theta) = 1 - h_\theta(x)
y=0时表达式为:p(y∣x;θ)=1−hθ(x)
y
=
1
时
表
达
式
为
:
p
(
y
∣
x
;
θ
)
=
h
θ
(
x
)
y = 1时表达式为:p(y|x;\theta) = h_\theta(x)~~~~~~
y=1时表达式为:p(y∣x;θ)=hθ(x)
这
和
我
们
刚
开
始
定
义
的
一
致
这和我们刚开始定义的一致~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
这和我们刚开始定义的一致
接着和线性回归的推导类似,分别引入似然函数和对数似然
似然函数:
L
(
θ
)
=
∏
i
=
1
m
p
(
y
i
∣
x
i
;
θ
)
=
∏
i
=
1
m
(
h
θ
(
x
i
)
)
y
i
⋅
(
1
−
h
θ
(
x
i
)
)
1
−
y
i
L(\theta)=\prod_{i=1}^mp(y_i|x_i;\theta)=\prod_{i=1}^m(h_\theta(x_i))^{y_i}\cdot(1-h_\theta(x_i))^{1-y_i}
L(θ)=i=1∏mp(yi∣xi;θ)=i=1∏m(hθ(xi))yi⋅(1−hθ(xi))1−yi
对数似然和后面的推导如下:
通过以上分析,我们可以看出线性模型中两种不同模型线性回归、逻辑回归之间的区别、使用范围和推导。
上述公式中出现的log函数应该是ln,如果还有其他错误,希望大家多多指正。