000
逻辑回归和线性回归是广义线性模型的特例
逻辑回归不是回归问题,不要被“回归”二字所欺骗。
回归模型和分类模型的区别:
回归模型的输出是连续的
分类模型的输出是离散的
线性回归
线性就是给出空间的很多点,然后画出穿过空间这些点的一条直线
n: 表示样本数量
x
i
x_i
xi:P维的列向量shape=(p,1),
w
i
w_i
wi:P维的列向量对应于
x
i
x_i
xi的权重shape=(p,1),
w
i
和
x
i
的
内
积
就
表
示
分
数
了
,
加
一
个
s
i
g
m
o
i
d
就
可
以
理
解
为
这
个
分
数
对
应
的
概
率
值
了
w_i和x_i的内积就表示分数了,加一个sigmoid就可以理解为这个分数对应的概率值了
wi和xi的内积就表示分数了,加一个sigmoid就可以理解为这个分数对应的概率值了,
y
i
y_i
yi:一个类标签值为{0,1},
Y:是一个一维列向量shape=(n,1)
D:样本的集合
D
=
{
(
x
1
,
y
i
)
,
(
x
2
,
y
2
)
,
(
x
i
,
y
i
)
}
D=\{(x_1,y_i),(x_2,y_2),(x_i,y_i)\}
D={(x1,yi),(x2,y2),(xi,yi)},
步骤:
1.写出平方损失函数,目标是最小化损失函数,目标是求出自变量w的值。
2.对损失函数求导为0得到最小值
3.求出参数w的值(二维平面中w就是斜率)
假设就2个样本(x1=0,y1=0),(x2=1,y2=1)我们想求出一条线来拟合这两个点。
所以我们的目标函数是
L
(
w
)
=
(
w
x
1
−
y
1
)
2
+
(
w
x
2
−
y
2
)
2
L(w)=(wx1-y1)^{2}+(wx2-y2)^{2}
L(w)=(wx1−y1)2+(wx2−y2)2使其损失最小
我们对w求导的到:
L
′
(
w
)
=
2
x
1
(
w
x
1
−
y
1
)
+
2
x
2
(
w
x
2
−
y
2
)
L'(w)=2x1(wx1-y1)+2x2(wx2-y2)
L′(w)=2x1(wx1−y1)+2x2(wx2−y2),令导数为0,我们可以求的最终的参数w的值
w
=
x
1
y
1
+
x
2
y
2
x
1
2
+
x
2
2
w=\frac{x1y1+x2y2}{x1^{2}+x2^{2}}
w=x12+x22x1y1+x2y2,将真实的x1,y1,x2,y2的值代入我们就可以求出w的值了
当x是多维列向量时,方法也是一样,只不过不我们就得使用矩阵运算,包括矩阵一阶导数的学习。
需要学习内容,线性代数基本知识,求矩阵导数等。
逻辑回归:
使用线性模型加了逻辑函数去做分类。所以线性等于做回归又使用了逻辑函数,就叫逻辑回归了。
一般用作二分类问题,并给出相应的概率值。也可以扩展做多分类问题。概率值 P = s i g m o i d ( w x + b ) P=sigmoid(wx+b) P=sigmoid(wx+b)
然后使用最大似然估计算法得到损失函数
之后使用梯度下降算法求最优解
sigmoid
极大似然估计:
似然函数的求解步骤:
1.概率连乘
2.取对数
3.偏导为0,求出最大值
离散型模型
L
(
θ
)
=
∏
i
=
1
n
P
θ
(
X
i
=
x
i
)
L(\theta)=\prod_{i=1}^{n}P_{\theta}(X_i=x_i)
L(θ)=∏i=1nPθ(Xi=xi)
似然函数的直观意义,刻画参数
θ
\theta
θ与数据的匹配程度。
比如
样本x 1 2
概率P
θ
\theta
θ 1-
θ
\theta
θ
假设有一个事件,共n个样本,1发生了n1次,2发生了n2次。真实1发生的概率n1/n
假设n的发生的概率为
θ
\theta
θ
这件事情(n个样本,样本1发生了n1次,样本2发生了n2次)发生的概率为
θ
n
1
(
1
−
θ
)
n
2
\theta^{n1}(1-\theta)^{n2}
θn1(1−θ)n2.也就是说当
θ
=
n
1
/
n
\theta=n1/n
θ=n1/n为真实值的时候,上述概率最大.我们的目标是使上面概率最大,来求得自变量
θ
\theta
θ接近真实值的概率值。有时间去深入为什么连乘最大就是概率最大?
令目标函数
L
(
θ
)
=
a
r
g
m
a
x
(
θ
)
{
θ
n
1
(
1
−
θ
)
n
2
}
L(\theta)=argmax_{(\theta)}\{\theta^{n1}(1-\theta)^{n2}\}
L(θ)=argmax(θ){θn1(1−θ)n2} (使其发生的概率为最大值)
将其转化为对数似然(使连乘符号变为连加符号),两边同时取
ln
\ln
ln
l
n
(
L
(
θ
)
)
=
n
1
l
n
(
θ
)
+
n
2
l
n
(
θ
)
ln(L(\theta))=n1ln(\theta)+n2ln(\theta)
ln(L(θ))=n1ln(θ)+n2ln(θ) (使转化后的取最大,令导数为0)
l
n
′
(
L
(
θ
)
)
=
n
1
θ
+
n
2
θ
ln'(L(\theta))=\frac{n1}{\theta}+\frac{n2}{\theta}
ln′(L(θ))=θn1+θn2=0
解得
θ
=
n
1
n
1
+
n
2
=
n
1
n
\theta=\frac{n1}{n1+n2}=\frac{n1}{n}
θ=n1+n2n1=nn1 由此可见,解得的参数值就是真实的为1样本的出现的概率。说明使用极大似然估计能够求得样本参数的真实分布。
加sigmoid函数的作用?
答:线性回归是在实数域范围内进行预测,而分类范围则需要在 [0,1],逻辑回归减少了预测范围;
线性回归在实数域上敏感度一致,而逻辑回归在 0 附近敏感,在远离 0 点位置不敏感,这个的好处就是模型更加关注分类边界,可以增加模型的鲁棒性。
极大似然估计和交叉熵推荐后的结果是一样的
逻辑回归和最大熵的区别?
答:逻辑回归和最大熵模型本质上没有区别,最大熵在解决二分类问题时就是逻辑回归,在解决多分类问题时就是多项逻辑回归。