数据分析笔记整理之分类问题(1)

数据分析笔记整理之分类问题(1)

1 分类问题与对应模型

1.1 分类问题的目的

  1. 分类分析之前,要先明确建模的目的是推断还是预测
  • 如果是以推断/分析为主,那么在建模时最好采用易于解释的白盒模型,探究各自变量对分类决策的影响。如一众线性模型(如:Logistic回归、Probit回归等)
  • 如果是以预测为主,则建模的依据主要是预测的精度,模型的可解释性与线性模型相比较差(如:支持向量机、随机森林、Xgboost等)

1.2 分类问题的类别

  1. 分类问题按照被分类对象的类别划分,总共可分为三类:二分类问题、无序多分类问题、有序多分类问题
  2. 二分类问题是最简单且最常见的分类问题
  • 模型选用
    • 二分类Logistic回归模型
    • Probit模型
  • 问题举例
    • 例如要研究客户流失跟哪些因素有关,从而对客户流失做出预警,此时因变量就是客户“是”与“否”会流失
    • 根据短信正文的内容判断邮件是垃圾邮件还是正常邮件
  1. 无序多分类问题是二分类问题的延伸
  • 模型选用
    • 多分类Logistic回归
  • 问题举例
    • 根据新闻内容对新闻主题进行分类,分类主题有体育、政治、娱乐、生活等。这种因变量类别多于两个,且类别间没有大小顺序的分类问题,被称为无序多分类问题
  1. 有序多分类问题也称为定序问题,在问卷调查中常出现
  • 模型选用
    • 有序Logistic回归
  • 问题举例
    • 例如要求消费者对产品进行满意度评价,评价结果包括不满意、一般、满意三个选项,可以将之赋值为1/2/3。这三个取值是存在先后大小之分的,这是与无序多分类问题最大的不同

2 二分类问题

2.1 线性回归模型如何处理分类问题

  1. 以具体的案例来说明(Example12

​ ST是我国股市特有的一项保护投资者利于的决策,当上市公司因财务状况不佳导致投资者难以预测其前景时,交易所会标记该公司股票为ST,并进行一系列限制措施。我们想研究被ST的公司其背后的因素,并尝试通过利用公司的财务指标提前预测某上市公司在未来是否会被ST,是一件很有意义的举措。而在这项任务中,因变量就是公司是否会被ST,数学表示为: y = { 1 , S T 0 ,  Otherwise  y= \begin{cases}1, & S T \\ 0, & \text { Otherwise }\end{cases} y={ 1,0,ST Otherwise 

​ 该例中自变量是一些财务指标,如ARA、ASSET等。

  1. 回归问题中,对于一个待预测样本 x x x,模型输出值 y ^ \hat{y} y^ 的性质就是因变量的性质
  • 例如:如果某个问题中因变量是价格,那么模型输出的值也应当是价格。但是分类问题不一样,以这个例子为例,模型是不可能直接回答我们结果是0还是1

  • 分类问题中模型一般输出——概率,准确来说是在给定 x x x 下, y = 1 y=1 y=1 的概率

P ( y = 1 ∣ x ) P(y=1 \mid x) P(y=1x)

2.2 概率的映射

  1. 与回归问题因变量天然确定的情况不一样,分类问题中概率的形式是需要我们人为确定的,即我们要确定如何将线性模型的直接输出值 y y y 映射成概率值 P ( y = 1 ∣ x ) P(y=1∣x) P(y=1x)
  2. 多元线性模型 y = β 0 + β 1 x 1 + ⋯ + β k x k + u y=\beta_{0}+\beta_{1} x_{1}+\cdots+\beta_{k} x_{k}+u y=β0+β1x1++βkxk+u
  • 其输出值 y y y 是一个连续变量,而概率也是一个连续变量
  • 若让输出值 y = P ( y = 1 ∣ x ) = β 0 + β 1 x 1 + ⋯ + β k x k + u y=P(y=1 \mid x)=\beta_{0}+\beta_{1} x_{1}+\cdots+\beta_{k} x_{k}+u y=P(y=1x)=β0+β1x1++βkxk+u ,这样做有一个最大的缺点—— y ^ \hat{y} y^ 可能不在区间 ( 0 , 1 ) (0,1) (0,1) 内,而概率只能在 ( 0 , 1 ) (0,1) (0,1) 区间内
  • 因此需要将 y y y 放在一个映射函数中,将之映射为一个概率。而映射函数的不同决定了模型的形式、解释、训练方法的不同
  1. 若映射函数为 Logistic函数 G ( y ) = 1 1 + e − y G(y)=\frac{1}{1+e^{-y}} G(y)=1+ey1,则整个预测模型被称为Logistic线性回归模型
  2. 若映射函数为 Probit函数 Φ ( y ) = P ( Y ≤ y ) = ∫ − ∞ y 1 2 π exp ⁡ ( − 1 2 x 2 ) d x \Phi(y)=P(Y \leq y)=\int_{-\infty}^{y} \frac{1}{\sqrt{2 \pi}} \exp \left(-\frac{1}{2} x^{2}\right) d x Φ(y)=P(Yy)=y2π
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值