机器学习（二）逻辑回归

黄昏贩卖机

于 2021-09-28 21:17:51 发布

阅读量239

点赞数

分类专栏：机器学习文章标签：概率论机器学习深度学习

本文链接：https://blog.csdn.net/greatcoder/article/details/120533268

版权

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

逻辑回归

逻辑回归
牛顿法
多分类
- 一对多的情况
- - 取对数运算

逻辑回归

概念

和逻辑回归相似，不过预测结果是离散的值
二分类问题： $y\in\{0,1\}$ ,0代表负样本，1代表正样本
$y^{(i)}\in\{0,1\}$ 称为训练样本的标签

sigmoid 函数

$\frac{1}{1+e^{-z}}$

值域： $g(z)\in(0,1)$
对称性：1 - g(z) = g(-z)
求导：g’(z) = g(z)(1 - g(z))

hypothesis

$h_{\theta} = g(\theta^{T}x) = \frac{1}{1+e^{-\theta^{T}x}}$

首先计算出真实值作为’score‘( $\theta^{T}x$ )
将其变换到（0，1）区间，作为属于正样本的概率
伪线性关系

条件概率

对给定数据X=x，Y=1的概率
$=x;\theta) = h_{\theta}(x) = \frac{1}{1+e^{-\theta^{T}x}}$
对给定数据X=x，Y=0的概率
$=x;\theta) = 1-h_{\theta}(x) = \frac{1}{1+e^{\theta^{T}x}}$

在边界的情况

$=x;\theta) = Pr(Y = 0|X =x;\theta)$
$\Rightarrow \frac{1}{1+e^{-\theta^{T}x}} = \frac{1}{1+e^{\theta^{T}x}}$
$\Rightarrow exp(\theta^{T}x) = 1$
$\Rightarrow\theta^{T}x=0\quad(超平面)$

$score的值\theta^{T}x度量了x距离超平面（hyperplan）的距离$
score是正值，越大，是正样本的概率越高
score是负值，越小，是正样本的概率越小

概率公式

$\theta) = Pr(Y = y|X = x;\theta) = (h_{\theta}(x))^{y}(1-h_{\theta}(x))^{1-y},\quad y \in \{0,1\}$

如何确定参数 $\theta$

极大似然估计

极大似然函数

$L(\theta) = \prod_{i=1}^{m}p(y^{(i)}|x^{(i)} ; \theta)\\ = \prod_{i=1}^{m} (h_{\theta}(x^{(i)}))^{y^{(i)}}(1-h_{\theta}(x^{(i)}))^{1-y^{(i)}}$

因为是独立事件同时发生，所以概率相乘
解释：这是样本，按照预测模型计算出的发生的概率。由于事件已经发生，我们认为在这样本下发生此事件的概率尽可能大，即我们应使得 $L(\theta)$ 尽可能大
通俗解释一下：小明去钓鱼，钓了一条鱼，是小鱼，又钓了一条鱼还是小鱼，再钓一条鱼还是小鱼，小明依据存在即合理的思想认为，这个池塘里的小鱼多。小明做了个模型预测在这个池塘里钓出鱼的大小，预测出是小鱼的概率更高一些，我们认为是更合理的。

取对数

$l(\theta) = \log L(\theta) = \sum_{i=1}^{m}(y^{(i)}\log (h_{\theta}(x^{(i)})) + (1-y^{(i)})\log (1-h_{\theta}(x^{(i)})))$

求极值（使用梯度下降法）

目标：要求 $L(\theta)$ 最大， $\theta$ 要沿着梯度方向更新
$\theta_{j}\leftarrow\theta_{j}+\alpha\triangledown_{\theta_{j}}l(\theta)\quad for \forall j$
$\frac{\partial}{\partial\theta_{j}}l(\theta) = \sum_{i=1}^{m}(y^{(i)}-h_{\theta}(x^{(i)}))x_{j}^{(i)}$
推导有空再写

牛顿法

使用梯度下降法，收敛的速度太慢，使用牛顿法可以更快的收敛

牛顿法介绍

对于一个实数域函数 $f:\mathbb{R}\rightarrow\mathbb{R}$ ,如何寻找 $x$ 使得 $f (x) = 0$ ？
一元函数
对曲线 $y = f (x)$ 在点 $x_{1},f(x_{1}))$ 处作切线L
L在x轴的交点为
$x_{2} = x_{1} - \frac{f(x_{1})}{f'(x_{1})}$

然后重复上述操作,直到满足收敛条件 $x\leftarrow x-\frac{f(x)}{f'(x)}$
在这里插入图片描述

牛顿法的一些特性

收敛速度快
不保证收敛，取决于函数和初始值的选取

牛顿法寻找最大值

要使 $f (x)$ 最大，需要找到 $f^{'} (x) = 0$ 的点
使用以下公式： $x\leftarrow x-\frac{f'(x)}{f''(x)}$
对于 $l(\theta):\mathbb{R}^{n}\rightarrow\mathbb{R}$ 应用牛顿法：
$\theta\leftarrow \theta-H^{-1}\triangledown_{\theta}l(\theta)$
H是 Hessian matrix $H_{ij}=\frac{\partial^{2}l(\theta)}{\partial\theta_{i}\partial\theta_{j}}$
虽然牛顿法迭代快，但是Hessian矩阵的计算开销大
在这里插入图片描述

多分类

对于多分类的问题可以从二分类的基础上进行拓展，对于每一类训练一个分类器，数据中的本类作为正样本，其他类作为负样本。

一对多的情况

输入：学习算法L，训练样本 ${(x^{(i)},y^{(i)})}\quad i=1,...,m\quad y^{(i)}\in{1,...,K}$
输出：一系列分类器 $f_{k} \quad k\in{1,...K}$
$f_{k}(x)$ 越大表明x属于k类的概率越高
假设函数：
$h_{\theta}(x)= \begin{bmatrix} p(y=1|x,\theta)\\ p(y=2|x,\theta)\\ \vdots\\ p(y=k|x,\theta) \end{bmatrix} = \frac{1}{\sum_{k=1}^{K}exp(\theta^{(k)^{T}}x)} \begin{bmatrix} exp(\theta^{(1)^{T}}x)\\ exp(\theta^{(2)^{T}}x)\\ \vdots\\ exp(\theta^{(k)^{T}}x) \end{bmatrix}$
上式中进行了归一化 softmax regression，使得对于一个样本，属于各个分类的概率之和为1

取对数运算

$l(\theta)=\sum_{i=1}^{m}\log p(y^{(i)}|x^{(i)};\theta)\\=\sum_{i=1}^{m}\log\prod_{k=1}^{K}\left( \frac{exp(\theta^{(k)^{T}}x^{(i)})}{\sum_{k'=1}^{K}exp(\theta^{(k')^{T}}x^{(i)})}\right)^{\mathbb{I}(y^{(i)=k})} \\ \mathbb{I}:{True,False}\rightarrow{0,1} 是一个指示函数 \\注：当样本i是k类时y^{(i)}=k,幂值不为零，整个式子才不为1，\\总之log以内是每个样本预测结果为y^{(i)}的概率$

黄昏贩卖机

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习（二）逻辑回归

逻辑回归逻辑回归概念sigmoid 函数hypothesis条件概率在边界的情况概率公式如何确定参数θ\thetaθ极大似然估计取对数牛顿法多分类逻辑回归概念和逻辑回归相似，不过预测结果是离散的值二分类问题：y∈{0,1}y\in\{0,1\}y∈{0,1},0代表负样本，1代表正样本y(i)∈{0,1}y^{(i)}\in\{0,1\}y(i)∈{0,1}称为训练样本的标签sigmoid 函数g(z)=11+e−zg(z) = \frac{1}{1+e^{-z}}g(z)=1+e−z1
复制链接

扫一扫