logistic回归1—简介

本篇知识点都能理解,但思路还不是很清晰,包括不限于1、判断分类没涉及到阈值;2、本篇的判别与阈值的判别什么关系;3、整体推导思路,若无Logistic回归,其创造的思路如何;4、判别函数为什么是一个类一个、

监督学习(Supervised Learning)

∙ \bullet 训练数据:给定训练数据集 D = { x i , y i } i = 1 N D=\{\mathbf x_{i},y_{i}\}_{i=1}^N D={xi,yi}i=1N,其中N为训练样本数目,i为训练样本索引, x i \mathbf x_{i} xi为第i各样本的输入特征, y i y_{i} yi为对应的输出\响应。
∙ \bullet 回归:根据训练样本D,学习一个从输入 x \mathbf x x到输出y的映射f, y i ∈ R y_{i} \in R yiR
∙ \bullet 分类:也是根据训练样本D,学习一个从输入 x \mathbf x x到输出y的映射f,但 y i y_{i} yi是离散值。
∙ \bullet 测试:对新的测试数据 x \mathbf x x,用学习到的f对其进行预测: y ^ = f ( x ) \hat y = f(\mathbf x) y^=f(x)

分类任务

∙ \bullet 分类任务举例:垃圾邮件过滤、手写数字\文本识别、语音识别、人脸识别、医疗诊断、金融风空
∙ \bullet 以两类分类为例,样本的输出 y i ∈ { 0 , 1 } y_{i} \in \{0,1\} yi{0,1}。也可以根据需要,用{-1,1}或其它值对样本输出进行表示。
∙ \bullet 在概率分布中,贝努力(Bernoulli)试验的输出为{0,1}。
∙ \bullet 贝努力分布: y y y~ B e r n o u l l i ( μ ) Bernoulli(\mu) Bernoulli(μ) ,其中 μ \mu μ为分布的期望,表示y=1的概率。为什么是期望呢?期望不是均值吗?
∙ \bullet 贝努力分布的概率密度函数为: p ( y ; μ ) = ( μ ) y ( 1 − μ ) ( 1 − y ) , p ( y = 1 ) = μ , p ( y = 0 ) = 1 − μ p(y; \mu ) = (\mu)^y(1-\mu)^{(1-y)}, p(y=1) = \mu,p(y=0)=1-\mu p(y;μ)=(μ)y(1μ)(1y)p(y=1)=μp(y=0)=1μ,其中y的值为贝努力试验的输出0或1。
∙ \bullet 在分类任务中,在给定x的情况下,输出y用贝努力用贝努力分布描述: y ∣ x y|\mathbf x yx ~ B e r n o u l l i ( μ ( x ) ) Bernoulli(\mu(x)) Bernoulli(μ(x)),其中期望 μ ( x ) \mu(x) μ(x)表示在给定x的情况下,y=1的概率。概率密度函数为: p ( y ∣ x ; μ ) = μ ( x ) y ( 1 − μ ( x ) ) 1 − y , p ( y = 1 ) = μ ( x ) , p ( y = 0 ) = 1 − μ ( x ) p(y|x; \mu) = \mu(x)^{y}(1-\mu(x))^{1-y},p(y=1)=\mu(x),p(y=0) = 1-\mu (x) p(yx;μ)=μ(x)y(1μ(x))1yp(y=1)=μ(x)p(y=0)=1μ(x)

logistic回归

∙ \bullet 如上面所述,在分类任务中,给定输入x的情况下,概率密度函数为 p ( y ∣ x ; μ ) = μ ( x ) y ( 1 − μ ( x ) ) 1 − y p(y|x; \mu) = \mu(x)^{y}(1-\mu(x))^{1-y} p(yx;μ)=μ(x)y(1μ(x))1y
∙ \bullet 那么,期望 μ ( x ) \mu(x) μ(x)该如何表示呢?答案:最简单的模型—线性模型 μ ( x ) = w T x \mu(x) = \mathbf w^T\mathbf x μ(x)=wTx
∙ \bullet 但是 μ ( x ) \mu(x) μ(x)是在给定情况下,y=1的概率,取值区间为[0,1]。
∙ \bullet 所以,须将 w T x w^T\mathbf x wTx的输出范围转换到[0,1],该转换使用sigmoid函数(S函数)

Sigmoid函数

∙ \bullet sigmoid函数又被成为logistic函数或logit函数,其函数形式为: δ ( z ) = 1 1 + e − z \delta(z) = \frac{1}{1 + e^{-z}} δ(z)=1+ez1 所以logistic回归又被成为logit回归。不能翻译为逻辑回归,因为Logistic回归里的Logistic并不是逻辑的意思,两者相去甚远。

Logistic回归模型

∙ \bullet 因此,在Logistic回归模型中:
p ( y = 1 ∣ x ) = μ ( x ) = δ ( w t x ) p(y=1|\mathbf x) =\mu(x) = \delta(\mathbf w^t \mathbf x) p(y=1∣x)=μ(x)=δ(wtx) p ( y = 1 ∣ x ) = 1 − μ ( x ) = 1 − δ ( w t x ) p(y=1|\mathbf x) = 1 - \mu(x) = 1 - \delta(\mathbf w^t \mathbf x) p(y=1∣x)=1μ(x)=1δ(wtx)
∙ \bullet 定义一个事件的几率(odds)为该事件发生的概率与不发生概率的比值: p ( y = 1 ) p ( x = 1 ) = δ ( w T x ) 1 − δ ( w T x ) = 1 / ( 1 + e − w T x ) 1 − 1 / ( 1 + e − w T x ) = 1 / ( 1 + e − w T x ) e − w T x / ( 1 + e − w T x ) = e ( w T x ) \frac{p(y=1)}{p(x=1)} = \frac{\delta(\mathbf w^T\mathbf x)}{1 - \delta(\mathbf w^T\mathbf x)} = \frac{1/(1+e^{-\mathbf w^T\mathbf x})}{1 - 1/(1+ e^{-\mathbf w^T\mathbf x})} = \frac {1/(1+e^{-\mathbf w^T\mathbf x})}{e^{-\mathbf w^T\mathbf x}/(1+e^{-\mathbf w^T\mathbf x})} = e^{(\mathbf w^T\mathbf x)} p(x=1)p(y=1)=1δ(wTx)δ(wTx)=11/(1+ewTx)1/(1+ewTx)=ewTx/(1+ewTx)1/(1+ewTx)=e(wTx)
∙ \bullet 两边同时取log运算,得到对数几率: l o g p ( y = 1 ) p ( x = 1 ) = l o g ( e ( w T x ) ) = w T x log\frac{p(y=1)}{p(x=1)} = log(e^{(\mathbf w^T\mathbf x)}) = \mathbf w^T\mathbf x logp(x=1)p(y=1)=log(e(wTx))=wTx
∙ \bullet p ( y = 1 ∣ x ) > p ( y = 0 ∣ x ) p(y=1|\mathbf x)> p(y=0|\mathbf x) p(y=1∣x)>p(y=0∣x)时,如果取最大后验概率, x \mathbf x x的类别取y=1,即
p ( y = 1 ∣ x ) p ( x = 1 ∣ x ) > 1 , l o g ( p ( y = 1 ∣ x ) p ( x = 1 ∣ x ) ) = w t x > 0 \frac{p(y=1|\mathbf x)}{p(x=1|\mathbf x)}>1,log(\frac{p(y=1|\mathbf x)}{p(x=1|\mathbf x)}) = \mathbf w^t\mathbf x > 0 p(x=1∣x)p(y=1∣x)>1log(p(x=1∣x)p(y=1∣x))=wtx>0上边的公式能够理解,但不理解下面这句话:如果取最大后验概率, x \mathbf x x的类别取y=1。看后面,好像就明白了, 说白了就是分为什么类,但x的类别取什么什么的这种表述方式,是否严谨呢?
∙ \bullet w T x > 0 \mathbf w^T \mathbf x > 0 wTx>0时, x \mathbf x x的类别取y=1;
∙ \bullet w T x < 0 \mathbf w^T \mathbf x < 0 wTx<0时, x \mathbf x x的类别取y=1;
∙ \bullet w T x = 0 \mathbf w^T \mathbf x = 0 wTx=0时,y=1和y=0的概率相等,此时x位于决策面上。可将x分类到任意一类,或拒绝作出判断。;
以上判定,是否与后边踢到取概率阈值判定分类的方式冲突?
∙ \bullet 决策函数 f ( x ) = w T x f(\mathbf x) = \mathbf w^T \mathbf x f(x)=wTx的符号将输入空间 x \mathbf x x分出两个区域
∙ \bullet w T x \mathbf w^T \mathbf x wTx为输入 x \mathbf x x的线性函数,所以logistic回归模型是一个线性分类模型。那么,是否存在非线性分类模型么?非线性分类模型应该就是以曲线为决策面吧?
在这里插入图片描述

决策边界

∙ \bullet 更一般地:根据需要划分的类别,分类器将输入空间x划分为一些互不相交的区域。这些区域的边界叫做决策边界(decision boundaries)。
∙ \bullet 预测函数的形式不同,会使得决策面或光滑,或粗糙。
∙ \bullet 决策面是输入的线性函数,称为线性决策面,对应的分类器就是线性分类器。
∙ \bullet 分类器为每个类别分配一个判别函数,根据判别函数来判断一个新样本属于该类别的可能。
∙ \bullet 假设有C个类别,则有C个判别函数: δ c , c ∈ { 1 , . . . , C } \delta_{c}, c \in \{1,...,C\} δc,c{1,...,C}C个判别函数的说法应用到两分类,判别函数应该是不等式函数吧?那应用到多分类,C个判别函数又分别是什么样的呢?好像还有另外一种说法,一个学习器,输出各类的概率,应注意后边的softmax是不是就是这样的一种情况?
∙ \bullet 对一个新的样本X,一般是找到最大的 δ c ( x ) \delta_{c}(x) δc(x) δ c ( x ) \delta_{c}(x) δc(x)表示样本属于该类的概率,如果有其它费用函数,也可以求费用函数最小的类
∙ \bullet 判别函数 δ c ( x ) \delta_{c}(x) δc(x)和相等 δ k ( x ) \delta_{k}(x) δk(x)的点的集合,就是类c和类k之间的决策面。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值