本篇知识点都能理解,但思路还不是很清晰,包括不限于1、判断分类没涉及到阈值;2、本篇的判别与阈值的判别什么关系;3、整体推导思路,若无Logistic回归,其创造的思路如何;4、判别函数为什么是一个类一个、
监督学习(Supervised Learning)
∙
\bullet
∙ 训练数据:给定训练数据集
D
=
{
x
i
,
y
i
}
i
=
1
N
D=\{\mathbf x_{i},y_{i}\}_{i=1}^N
D={xi,yi}i=1N,其中N为训练样本数目,i为训练样本索引,
x
i
\mathbf x_{i}
xi为第i各样本的输入特征,
y
i
y_{i}
yi为对应的输出\响应。
∙
\bullet
∙ 回归:根据训练样本D,学习一个从输入
x
\mathbf x
x到输出y的映射f,
y
i
∈
R
y_{i} \in R
yi∈R。
∙
\bullet
∙ 分类:也是根据训练样本D,学习一个从输入
x
\mathbf x
x到输出y的映射f,但
y
i
y_{i}
yi是离散值。
∙
\bullet
∙ 测试:对新的测试数据
x
\mathbf x
x,用学习到的f对其进行预测:
y
^
=
f
(
x
)
\hat y = f(\mathbf x)
y^=f(x)。
分类任务
∙
\bullet
∙ 分类任务举例:垃圾邮件过滤、手写数字\文本识别、语音识别、人脸识别、医疗诊断、金融风空
∙
\bullet
∙ 以两类分类为例,样本的输出
y
i
∈
{
0
,
1
}
y_{i} \in \{0,1\}
yi∈{0,1}。也可以根据需要,用{-1,1}或其它值对样本输出进行表示。
∙
\bullet
∙ 在概率分布中,贝努力(Bernoulli)试验的输出为{0,1}。
∙
\bullet
∙ 贝努力分布:
y
y
y~
B
e
r
n
o
u
l
l
i
(
μ
)
Bernoulli(\mu)
Bernoulli(μ) ,其中
μ
\mu
μ为分布的期望,表示y=1的概率。为什么是期望呢?期望不是均值吗?
∙
\bullet
∙ 贝努力分布的概率密度函数为:
p
(
y
;
μ
)
=
(
μ
)
y
(
1
−
μ
)
(
1
−
y
)
,
p
(
y
=
1
)
=
μ
,
p
(
y
=
0
)
=
1
−
μ
p(y; \mu ) = (\mu)^y(1-\mu)^{(1-y)}, p(y=1) = \mu,p(y=0)=1-\mu
p(y;μ)=(μ)y(1−μ)(1−y),p(y=1)=μ,p(y=0)=1−μ,其中y的值为贝努力试验的输出0或1。
∙
\bullet
∙ 在分类任务中,在给定x的情况下,输出y用贝努力用贝努力分布描述:
y
∣
x
y|\mathbf x
y∣x ~
B
e
r
n
o
u
l
l
i
(
μ
(
x
)
)
Bernoulli(\mu(x))
Bernoulli(μ(x)),其中期望
μ
(
x
)
\mu(x)
μ(x)表示在给定x的情况下,y=1的概率。概率密度函数为:
p
(
y
∣
x
;
μ
)
=
μ
(
x
)
y
(
1
−
μ
(
x
)
)
1
−
y
,
p
(
y
=
1
)
=
μ
(
x
)
,
p
(
y
=
0
)
=
1
−
μ
(
x
)
p(y|x; \mu) = \mu(x)^{y}(1-\mu(x))^{1-y},p(y=1)=\mu(x),p(y=0) = 1-\mu (x)
p(y∣x;μ)=μ(x)y(1−μ(x))1−y,p(y=1)=μ(x),p(y=0)=1−μ(x)
logistic回归
∙
\bullet
∙ 如上面所述,在分类任务中,给定输入x的情况下,概率密度函数为
p
(
y
∣
x
;
μ
)
=
μ
(
x
)
y
(
1
−
μ
(
x
)
)
1
−
y
p(y|x; \mu) = \mu(x)^{y}(1-\mu(x))^{1-y}
p(y∣x;μ)=μ(x)y(1−μ(x))1−y
∙
\bullet
∙ 那么,期望
μ
(
x
)
\mu(x)
μ(x)该如何表示呢?答案:最简单的模型—线性模型
μ
(
x
)
=
w
T
x
\mu(x) = \mathbf w^T\mathbf x
μ(x)=wTx
∙
\bullet
∙ 但是
μ
(
x
)
\mu(x)
μ(x)是在给定情况下,y=1的概率,取值区间为[0,1]。
∙
\bullet
∙ 所以,须将
w
T
x
w^T\mathbf x
wTx的输出范围转换到[0,1],该转换使用sigmoid函数(S函数)
Sigmoid函数
∙ \bullet ∙ sigmoid函数又被成为logistic函数或logit函数,其函数形式为: δ ( z ) = 1 1 + e − z \delta(z) = \frac{1}{1 + e^{-z}} δ(z)=1+e−z1 所以logistic回归又被成为logit回归。不能翻译为逻辑回归,因为Logistic回归里的Logistic并不是逻辑的意思,两者相去甚远。
Logistic回归模型
∙
\bullet
∙ 因此,在Logistic回归模型中:
p
(
y
=
1
∣
x
)
=
μ
(
x
)
=
δ
(
w
t
x
)
p(y=1|\mathbf x) =\mu(x) = \delta(\mathbf w^t \mathbf x)
p(y=1∣x)=μ(x)=δ(wtx)
p
(
y
=
1
∣
x
)
=
1
−
μ
(
x
)
=
1
−
δ
(
w
t
x
)
p(y=1|\mathbf x) = 1 - \mu(x) = 1 - \delta(\mathbf w^t \mathbf x)
p(y=1∣x)=1−μ(x)=1−δ(wtx)
∙
\bullet
∙ 定义一个事件的几率(odds)为该事件发生的概率与不发生概率的比值:
p
(
y
=
1
)
p
(
x
=
1
)
=
δ
(
w
T
x
)
1
−
δ
(
w
T
x
)
=
1
/
(
1
+
e
−
w
T
x
)
1
−
1
/
(
1
+
e
−
w
T
x
)
=
1
/
(
1
+
e
−
w
T
x
)
e
−
w
T
x
/
(
1
+
e
−
w
T
x
)
=
e
(
w
T
x
)
\frac{p(y=1)}{p(x=1)} = \frac{\delta(\mathbf w^T\mathbf x)}{1 - \delta(\mathbf w^T\mathbf x)} = \frac{1/(1+e^{-\mathbf w^T\mathbf x})}{1 - 1/(1+ e^{-\mathbf w^T\mathbf x})} = \frac {1/(1+e^{-\mathbf w^T\mathbf x})}{e^{-\mathbf w^T\mathbf x}/(1+e^{-\mathbf w^T\mathbf x})} = e^{(\mathbf w^T\mathbf x)}
p(x=1)p(y=1)=1−δ(wTx)δ(wTx)=1−1/(1+e−wTx)1/(1+e−wTx)=e−wTx/(1+e−wTx)1/(1+e−wTx)=e(wTx)
∙
\bullet
∙ 两边同时取log运算,得到对数几率:
l
o
g
p
(
y
=
1
)
p
(
x
=
1
)
=
l
o
g
(
e
(
w
T
x
)
)
=
w
T
x
log\frac{p(y=1)}{p(x=1)} = log(e^{(\mathbf w^T\mathbf x)}) = \mathbf w^T\mathbf x
logp(x=1)p(y=1)=log(e(wTx))=wTx
∙
\bullet
∙ 当
p
(
y
=
1
∣
x
)
>
p
(
y
=
0
∣
x
)
p(y=1|\mathbf x)> p(y=0|\mathbf x)
p(y=1∣x)>p(y=0∣x)时,如果取最大后验概率,
x
\mathbf x
x的类别取y=1,即
p
(
y
=
1
∣
x
)
p
(
x
=
1
∣
x
)
>
1
,
l
o
g
(
p
(
y
=
1
∣
x
)
p
(
x
=
1
∣
x
)
)
=
w
t
x
>
0
\frac{p(y=1|\mathbf x)}{p(x=1|\mathbf x)}>1,log(\frac{p(y=1|\mathbf x)}{p(x=1|\mathbf x)}) = \mathbf w^t\mathbf x > 0
p(x=1∣x)p(y=1∣x)>1,log(p(x=1∣x)p(y=1∣x))=wtx>0上边的公式能够理解,但不理解下面这句话:如果取最大后验概率,
x
\mathbf x
x的类别取y=1。看后面,好像就明白了, 说白了就是分为什么类,但x的类别取什么什么的这种表述方式,是否严谨呢?
∙
\bullet
∙ 当
w
T
x
>
0
\mathbf w^T \mathbf x > 0
wTx>0时,
x
\mathbf x
x的类别取y=1;
∙
\bullet
∙ 当
w
T
x
<
0
\mathbf w^T \mathbf x < 0
wTx<0时,
x
\mathbf x
x的类别取y=1;
∙
\bullet
∙ 当
w
T
x
=
0
\mathbf w^T \mathbf x = 0
wTx=0时,y=1和y=0的概率相等,此时x位于决策面上。可将x分类到任意一类,或拒绝作出判断。;
以上判定,是否与后边踢到取概率阈值判定分类的方式冲突?
∙
\bullet
∙ 决策函数
f
(
x
)
=
w
T
x
f(\mathbf x) = \mathbf w^T \mathbf x
f(x)=wTx的符号将输入空间
x
\mathbf x
x分出两个区域
∙
\bullet
∙
w
T
x
\mathbf w^T \mathbf x
wTx为输入
x
\mathbf x
x的线性函数,所以logistic回归模型是一个线性分类模型。那么,是否存在非线性分类模型么?非线性分类模型应该就是以曲线为决策面吧?
决策边界
∙
\bullet
∙ 更一般地:根据需要划分的类别,分类器将输入空间x划分为一些互不相交的区域。这些区域的边界叫做决策边界(decision boundaries)。
∙
\bullet
∙ 预测函数的形式不同,会使得决策面或光滑,或粗糙。
∙
\bullet
∙ 决策面是输入的线性函数,称为线性决策面,对应的分类器就是线性分类器。
∙
\bullet
∙ 分类器为每个类别分配一个判别函数,根据判别函数来判断一个新样本属于该类别的可能。
∙
\bullet
∙ 假设有C个类别,则有C个判别函数:
δ
c
,
c
∈
{
1
,
.
.
.
,
C
}
\delta_{c}, c \in \{1,...,C\}
δc,c∈{1,...,C}。C个判别函数的说法应用到两分类,判别函数应该是不等式函数吧?那应用到多分类,C个判别函数又分别是什么样的呢?好像还有另外一种说法,一个学习器,输出各类的概率,应注意后边的softmax是不是就是这样的一种情况?
∙
\bullet
∙ 对一个新的样本X,一般是找到最大的
δ
c
(
x
)
\delta_{c}(x)
δc(x)。
δ
c
(
x
)
\delta_{c}(x)
δc(x)表示样本属于该类的概率,如果有其它费用函数,也可以求费用函数最小的类
∙
\bullet
∙ 判别函数
δ
c
(
x
)
\delta_{c}(x)
δc(x)和相等
δ
k
(
x
)
\delta_{k}(x)
δk(x)的点的集合,就是类c和类k之间的决策面。