ML(1):从广义线性模型(GLM)到逻辑回归(LR)

本文是一对非科班出身的情侣共同学习机器学习的笔记,详细解析了逻辑回归为何使用sigmoid函数,从指数分布族到广义线性模型(GLM)的理论基础,并介绍了伯努利、泊松等分布。最终,通过GLM的推导揭示了逻辑回归的 sigmoid 形成原因。
摘要由CSDN通过智能技术生成

小感言:

学习ML有一段时间了,中间看了书也看了视频,鉴于和男朋友两个人都是非科班出身,想两个人一起运行一个博客,记录学习的心得~拯救自己的健忘体质。
起初学习ML看的是Andrew Ng的Coursera视频,里面的对ML的讲解避开了很多数学推导,很适合入门也留下了很多问题,所以这两天又看了cs229,重新整理一下ML的知识点。

一、LR(逻辑回归)为什么用sigmoid函数

首先从sigmoid函数自身的性质来说,它有很多的优点:

  • sigmoid单调递增且连续
  • sigmoid函数关于(0,0.5)对称
  • sigmoid可以将输出值映射到0~1之间

但是并不是因为sigmoid有很多优秀的性质才选择sigmoid函数,这里可以从广义线性模型(Generalized Linear Models, GLM)来解释。

二、指数分布族

在介绍广义线性模型之前需要先了解一下指数分布族(The exponential family)。
指数分布族的任一类分布都用以下公式描述:
P ( y ; η ) = b ( y ) e x p ( η T T ( y ) − a ( η ) ) P(y;\eta)=b(y)exp(\eta^T T(y)-a(\eta)) P(y;η)=b(y)exp(ηTT(y)a(η))
(该公式来自cs229的讲义,我查阅了一些资料,不同的地方写法不同,但都可以相互进行转换)

  • η \eta η:分布的自然参数(与分布有关)
  • T ( y ) T(y) T(y):充分统计量,通常 T ( y ) = y T(y)=y T(y)=y
  • e − a ( η ) e^{-a(\eta)} ea(η)的作用是保证 ∑ P ( y ; η ) = 1 \sum P(y;\eta)=1 P(y;η)=1

满足指数分布族的概率分布

  • 伯努利分布(Bernoulli):0-1分布
  • 二项分布(Multinomial):重复n次伯努利实验
  • 泊松分布(Poisson):描述单位时间内随机事件发生的次数。对计数过程进行建模,比如网站访问量的计数问题
  • 指数分布(Exponential):要等到一个随机事件发生,需要经历多久时间
  • 伽马分布(Gamma):要等到n个随机事件都发生,需要经历多久时间
  • 高斯分布(Gaussian):即正态分布
    其实大多数的概率分布都属于指数分布族

三、广义线性模型

对于回归或是分类问题,我们的目标是若其分布属于指数分布族的某种分布,那么可以求出拟合函数 h ( x ) h(x) h(x)。广义线性模型具有三个特征:

  • y i y_i yi是相互独立的随机变量,且 y y y服从以 η \eta η为参数的指数分布族中的某个分布,即 y ∣ x ∼ E x p o n e n t i a l F a
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值