Statistic Learning 2

Logistic Regression

三种常用的分类方法

  • Logistic Regression
  • Linear Discriminant Analysis
  • K-NN Negihbor

为什么不用Linear Regression建模分类模型?

  • 若使用Linear Regression来建模

    P ( x ) = β 0 + β 1 x P(x) = \beta_0 + \beta_1x P(x)=β0+β1x

  • 上述模型存在两个问题

    • 概率可能为负
    • 概率可能超过1

Logistic Regression建模

P ( x ) = e β 0 + β 1 x 1 + e β 0 + β 1 x P(x) = \frac{e^{\beta_0 + \beta_1x}}{1 + e^{\beta_0 + \beta_1x}} P(x)=1+eβ0+β1xeβ0+β1x

  • 上述的模型是一根曲线,且范围在 ( 0 ,   1 ) (0, ~ 1) (0, 1)

  • 此外,可以得到

    P ( x ) 1 − P ( x ) = e β 0 + β 1 x \frac{P(x)}{1-P(x)} = e^{\beta_0 + \beta_1x} 1P(x)P(x)=eβ0+β1x

  • 由此可以推出

    l o g ( P ( x ) 1 − P ( x ) ) = β 0 + β 1 x log(\frac{P(x)}{1-P(x)}) = \beta_0 + \beta_1x log(1P(x)P(x))=β0+β1x

  • 在上面的式子中, l o g i t logit logit关于 x x x是线性的;若是 x x x增加 1 − u n i t 1-unit 1unit,那么 l o g i t logit logit平均增加 β 1 x \beta_1x β1x。但是 P ( x ) P(x) P(x) x x x不是线性关系的,若是 x x x增加 1 − u n i t 1-unit 1unit P ( x ) P(x) P(x)改变的值根据当前值决定。若是忽略 x x x的值,只要 β 1 \beta_1 β1为正数,那么增加 x x x值会增加 P ( x ) P(x) P(x)的概率。

Estimating the Regression Coefficients

  • 可用最大似然的方法估计 β 0 , β 1 \beta_0,\beta_1 β0,β1的值

  • 如何验证相关系数的有效性

    z − s t a t i s t i c = β 1 S E ( β 1 ^ ) z-statistic = \frac{\beta_1}{SE(\hat{\beta_1})} zstatistic=SE(β1^)β1

    z − s t a t i s t i c z-statistic zstatistic的值越大,说明 S E ( β 1 ^ ) SE(\hat{\beta_1}) SE(β1^)的值越小;这将成为拒绝 H 0 H_0 H0的主要原因。

Confounding现象

  • 在估计拖欠率的时候,只有 s t u d e n t student student作为 p r e d i c t o r predictor predictor。此时,若身份是学生,那么拖欠率会降低
  • 但,增加了 b a l a n c e , i n c o m e balance, income balance,income这两个 p r e d i c t o r predictor predictor后,此时若身份是一个学生,那么拖欠率会变高。为什么呢?这是因为 b a l a n c e balance balance s t u d e n t student student之间存在相关性。 b a l a n c e balance balance越大,会导致身份为 s t u d e n t student student的拖欠率会升高。就像 L i n e a r   R e g r e s s i o n Linear ~ Regression Linear Regression中,一旦 p r e d i c t o r predictor predictor间存在了相关性, Y Y Y的增长不仅会和一个 p r e d i c t o r predictor predictor增长一个 1 − u n i t 1-unit 1unit相关。

2. Linear Discriminant Analysis

L o g i s t i c   R e g r e s s i o n Logistic ~ Regression Logistic Regression建立了 R e s p o n s e   Y Response ~ Y Response Y的条件分布;而在给定 p r e d i c t o r predictor predictor的时候, L D A LDA LDA根据不同的类别,对 p r e d i c t o r predictor predictor的分布进行建模。

为什么有了Logistic Regression,还需要LDA?

  • 当各类之间的边缘明确时, L D A LDA LDA L o g i s t i c   R e g r e s s i o n Logistic ~ Regression Logistic Regression更加的稳定
  • n n n较小时, x x x基本成正态分布,此时 L D A LDA LDA更为稳定
  • 当分类类别在 2 2 2类之上时, L D A LDA LDA更加流行。

分类中的贝叶斯理论

  • 定义符号

    • π k \pi_k πk:随机选中一个样本属于第 k k k类别的先验概率
    • f k ( x ) ≡ P r ( X = x ∣ Y = k ) f_k(x) \equiv Pr(X=x|Y=k) fk(x)Pr(X=xY=k):类别 k k k下样本分布的概率密度函数
  • 贝叶斯理论

    p k ( x ) = P r ( Y = k ∣ X = x ) = π k f k ( x ) ∑ l = 1 k π l f l ( x ) p_k(x) = Pr(Y=k|X=x) = \frac{\pi_kf_k(x)}{\sum_{l=1}^k\pi_lf_l(x)} pk(x)=Pr(Y=kX=x)=l=1kπlfl(x)πkfk(x)

    • 可用缩写 p k ( x ) p_k(x) pk(x)代表当 X = x X=x X=x时, Y = k Y=k Y=k的概率
    • 根据公式,若要估计 p k ( x ) p_k(x) pk(x),可以先估计 π k , f k ( x ) \pi_k,f_k(x) πk,fk(x)再带入贝叶斯公式
    • π k \pi_k πk比较容易估计,可以通过计算训练集中各类别数据的占比;但 f k ( x ) f_k(x) fk(x)的计算比较有挑战性。
  • p k ( x ) p_k(x) pk(x)被称之为 X = x X=x X=x属于第 k k k个类别的后验概率;如果能找一种方法估计 p k ( x ) p_k(x) pk(x),就可以得到一个近似贝叶斯分类器的分类器。

Linear Discriminant Analysis for p=1

  • 假设此时只有一个 p r e d i c t o r predictor predictor p = 1 p=1 p=1;我们需要获得 f k ( x ) f_k(x) fk(x)的估计,来计算 p k ( x ) p_k(x) pk(x)。那么对于一个样本而言, p k ( x ) p_k(x) pk(x)最大的那个 k k k就是它所属的类别。

  • 为了估计 f k ( x ) f_k(x) fk(x),需要做一些假设

    • 假设 f k ( x ) f_k(x) fk(x)服从正态分布,一维正太分布的概率密度函数如下:

      f k ( x ) = 1 2 σ k e − 1 2 σ k 2 ( x − μ k ) 2 f_k(x) = \frac{1}{\sqrt2\sigma_k}e^{-\frac{1}{2\sigma_k^2}(x-\mu_k)^2} fk(x)=2 σk1e2σk21(xμk)2

      其中, μ k , σ k \mu_k,\sigma_k μk,σk是第 k k k个类别的均值和方差

    • 此外,假设所有 k k k个类别共享相同的方差,统称为 σ 2 \sigma^2 σ2

  • f k ( x ) f_k(x) fk(x)代入 p k ( x ) p_k(x) pk(x)中,得到如下式子:

    p k ( x ) = π k 1 2 σ k e − 1 2 σ k 2 ( x − μ k ) 2 ∑ l = 1 k π l 1 2 σ l e − 1 2 σ l 2 ( x − μ l ) 2          公 式 ( 1 ) p_k(x) = \frac{\pi_k\frac{1}{\sqrt2\sigma_k}e^{-\frac{1}{2\sigma_k^2}(x-\mu_k)^2}}{\sum_{l=1}^k\pi_l\frac{1}{\sqrt2\sigma_l}e^{-\frac{1}{2\sigma_l^2}(x-\mu_l)^2}} ~~~~~~~~ 公式(1) pk(x)=l=1kπl2 σl1e2σl21(xμl)2πk2 σk1e2σk21(xμk)2        (1)

    其中, π k \pi_k πk声明了一个样本属于第 k k k个类别的先验概率

  • 若是对 公 式 ( 1 ) 公式(1) (1) l o g ( ) log() log(),可以得到以下式子:

    δ k ( x ) = x μ k σ 2 − μ k 2 2 σ 2 + l o g ( π k )          公 式 ( 2 ) \delta_k(x) = x\frac{\mu_k}{\sigma^2} - \frac{\mu_k^2}{2\sigma^2} + log(\pi_k) ~~~~~~~~ 公式(2) δk(x)=xσ2μk2σ2μk2+log(πk)        (2)

  • 对于公式 2 2 2,当 k = 2 , π 1 = π 2 k=2, \pi_1=\pi_2 k=2,π1=π2时,计算如下式子:

    δ 1 ( x ) − δ 2 ( x ) > 0 ⇒ x σ 2 ( μ 1 − μ 2 ) − 1 2 σ 2 ( μ 1 2 − μ 2 2 ) > 0 ⇒ 2 x ( μ 1 − μ 2 ) > μ 1 2 − μ 2 2 \delta_1(x) - \delta_2(x) > 0 \\ \Rightarrow \frac{x}{\sigma^2}(\mu_1-\mu_2) - \frac{1}{2\sigma^2}(\mu_1^2 - \mu_2^2) > 0 \\ \Rightarrow 2x(\mu_1 - \mu_2) > \mu_1^2 - \mu_2^2 δ1(x)δ2(x)>0σ2x(μ1μ2)2σ21(μ12μ22)>02x(μ1μ2)>μ12μ22

    此时可以得到得到一个决策边界,如下:

    x = μ 1 2 − μ 2 2 2 ( μ 1 − μ 2 ) = μ 1 + μ 2 2          公 式 ( 3 ) x = \frac{\mu_1^2-\mu_2^2}{2(\mu_1-\mu_2)} = \frac{\mu_1+\mu_2}{2} ~~~~~~~~ 公式(3) x=2(μ1μ2)μ12μ22=2μ1+μ2        (3)

  • 在上面的例子中,我们假设 x x x来自正态分布,所以我们知道 f k ( x ) f_k(x) fk(x),但需要估计 μ , σ \mu,\sigma μ,σ;此外,我们还假设了 π 1 = π 2 \pi_1=\pi_2 π1=π2。那在实践中,我们依然假设每个类别中的 x x x来自正态分布,但需要估计 μ 1 , μ 2 , . . . , μ k \mu_1,\mu_2,...,\mu_k μ1,μ2,...,μk,以及 π 1 , π 2 , . . . , π k \pi_1,\pi_2,...,\pi_k π1,π2,...,πk σ 2 \sigma^2 σ2

  • L D A LDA LDA通过估计 π k , μ k , σ 2 \pi_k,\mu_k,\sigma^2 πk,μk,σ2来近似贝叶斯分类器。在实践中,当 p = 1 p=1 p=1时,可以估计出

    { μ k ^ = 1 n k ∑ i : y i = k x i σ ^ 2 = 1 n − k ∑ k = 1 k ∑ i : y i = k ( x i − μ ^ k ) 2 \begin{cases} \hat{\mu_k} = \frac{1}{n_k}\sum_{i:y_i=k}x_i \\ \hat{\sigma}^2 = \frac{1}{n-k}\sum_{k=1}^k\sum_{i:y_i=k}(x_i - \hat{\mu}_k)^2 \end{cases} {μk^=nk1i:yi=kxiσ^2=nk1k=1ki:yi=k(xiμ^k)2

    其中, n n n为训练样本总量; n k n_k nk为类别 k k k的样本总量;可以看出

    • μ ^ \hat{\mu} μ^仅仅是第 k k k个类别中所有样本的均值
    • σ ^ 2 \hat{\sigma}^2 σ^2是每 k k k个类别样本方差的加权平均
  • 如何计算 π k \pi_k πk?

    • 有的时候该项已知,直接用

    • 当缺少 π k \pi_k πk时, L D A LDA LDA使用训练集中某类样本占总样本量的比例来估计 π k \pi_k πk

      π ^ k = n k n \hat{\pi}_k = \frac{n_k}{n} π^k=nnk

    • 最终可以判别 X = x X=x X=x属于不同类别的概率,式子如下

      δ ^ k ( x ) = x μ ^ k σ ^ 2 − μ ^ k 2 2 σ ^ 2 + l o g ( π ^ k )          公 式 ( 4 ) \hat{\delta}_k(x) = x\frac{\hat{\mu}_k}{\hat{\sigma}^2} - \frac{\hat{\mu}_k^2}{2\hat{\sigma}^2} + log(\hat{\pi}_k) ~~~~~~~~ 公式(4) δ^k(x)=xσ^2μ^k2σ^2μ^k2+log(π^k)        (4)

    • LDA中的"Linear"就源于判别方法 δ ^ k \hat{\delta}_k δ^k是x的线性方法。

最后,重申以下:当 p = 1 p=1 p=1时, L D A LDA LDA假设每个类别都来自正态分布,均值不同,但共享同一个方差;估计 π , μ , σ \pi,\mu,\sigma π,μ,σ后,带入到贝叶斯分类器中即可。

本文为作者原创,转载需注明出处!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在现有省、市港口信息化系统进行有效整合基础上,借鉴新 一代的感知-传输-应用技术体系,实现对码头、船舶、货物、重 大危险源、危险货物装卸过程、航管航运等管理要素的全面感知、 有效传输和按需定制服务,为行政管理人员和相关单位及人员提 供高效的管理辅助,并为公众提供便捷、实时的水运信息服务。 建立信息整合、交换和共享机制,建立健全信息化管理支撑 体系,以及相关标准规范和安全保障体系;按照“绿色循环低碳” 交通的要求,搭建高效、弹性、高可扩展性的基于虚拟技术的信 息基础设施,支撑信息平台低成本运行,实现电子政务建设和服务模式的转变。 实现以感知港口、感知船舶、感知货物为手段,以港航智能 分析、科学决策、高效服务为目的和核心理念,构建“智慧港口”的发展体系。 结合“智慧港口”相关业务工作特点及信息化现状的实际情况,本项目具体建设目标为: 一张图(即GIS 地理信息服务平台) 在建设岸线、港口、港区、码头、泊位等港口主要基础资源图层上,建设GIS 地理信息服务平台,在此基础上依次接入和叠加规划建设、经营、安全、航管等相关业务应用专题数据,并叠 加动态数据,如 AIS/GPS/移动平台数据,逐步建成航运管理处 "一张图"。系统支持扩展框架,方便未来更多应用资源的逐步整合。 现场执法监管系统 基于港口(航管)执法基地建设规划,依托统一的执法区域 管理和数字化监控平台,通过加强对辖区内的监控,结合移动平 台,形成完整的多维路径和信息追踪,真正做到问题能发现、事态能控制、突发问题能解决。 运行监测和辅助决策系统 对区域港口与航运业务日常所需填报及监测的数据经过科 学归纳及分析,采用统一平台,消除重复的填报数据,进行企业 输入和自动录入,并进行系统智能判断,避免填入错误的数据, 输入的数据经过智能组合,自动生成各业务部门所需的数据报 表,包括字段、格式,都可以根据需要进行定制,同时满足扩展 性需要,当有新的业务监测数据表需要产生时,系统将分析新的 需求,将所需字段融合进入日常监测和决策辅助平台的统一平台中,并生成新的所需业务数据监测及决策表。 综合指挥调度系统 建设以港航应急指挥中心为枢纽,以各级管理部门和经营港 口企业为节点,快速调度、信息共享的通信网络,满足应急处置中所需要的信息采集、指挥调度和过程监控等通信保障任务。 设计思路 根据项目的建设目标和“智慧港口”信息化平台的总体框架、 设计思路、建设内容及保障措施,围绕业务协同、信息共享,充 分考虑各航运(港政)管理处内部管理的需求,平台采用“全面 整合、重点补充、突出共享、逐步完善”策略,加强重点区域或 运输通道交通基础设施、运载装备、运行环境的监测监控,完善 运行协调、应急处置通信手段,促进跨区域、跨部门信息共享和业务协同。 以“统筹协调、综合监管”为目标,以提供综合、动态、实 时、准确、实用的安全畅通和应急数据共享为核心,围绕“保畅通、抓安全、促应急"等实际需求来建设智慧港口信息化平台。 系统充分整合和利用航运管理处现有相关信息资源,以地理 信息技术、网络视频技术、互联网技术、移动通信技术、云计算 技术为支撑,结合航运管理处专网与行业数据交换平台,构建航 运管理处与各部门之间智慧、畅通、安全、高效、绿色低碳的智 慧港口信息化平台。 系统充分考虑航运管理处安全法规及安全职责今后的变化 与发展趋势,应用目前主流的、成熟的应用技术,内联外引,优势互补,使系统建设具备良好的开放性、扩展性、可维护性。
Gap statistic是一种用于确定数据集中最优聚类数的统计量。它可以帮助我们确定在给定数据集上应该选择多少个聚类。Gap statistic的计算基于对比数据集内部离散度(with-in dispersion)与对比随机数据集的平均内部离散度之间的差异。 具体来说,要使用Gap statistic确定最优聚类数,我们需要执行以下步骤: 1. 针对给定数据集,使用不同的聚类数进行聚类,例如从1到k (k为我们认为可能的最大聚类数)。 2. 对于每个聚类数k,计算数据集的内部离散度(通常使用平方误差和)。 3. 生成B个随机数据集,并对每个随机数据集执行相同的聚类过程,计算每个随机数据集的平均内部离散度。 4. 对于每个聚类数k,计算其对应的Gap statistic值,即数据集内部离散度与随机数据集平均内部离散度之差。 5. 根据Gap statistic值的特征,选择一个适当的聚类数作为最优聚类数。 Gap statistic的理念是,如果真实的数据集具有明显的聚类结构,那么它的内部离散度将显著小于随机数据集的平均内部离散度,因此Gap statistic值将更高。因此,选择使Gap statistic值最大化的聚类数可以被认为是最优的聚类数。 需要注意的是,Gap statistic方法并不是唯一确定最优聚类数的方法,还有其他方法和指标可以用来确定最优聚类数,如肘部法则和轮廓系数等。不同的方法可能在不同的情况下给出不同的结果,因此在选择最优聚类数时应该综合考虑多个指标和方法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值