李宏毅机器学习(4)

Classification

简介

定义:输入一个 x x x,输出 x x x属于哪一种类

  • x ⇒ F u n c t i o n ⇒ C l a s s   n x \Rightarrow Function \Rightarrow Class\ n xFunctionClass n

应用场景:

  • 金融:输入:存款、收入、职位、年龄……输出:贷款 o r or or拒绝。
  • 医疗诊断:输入:症状、年龄、性别……输出:得了什么病。
  • 手写识别:输入:图像。输出:是哪个字
  • 人脸识别:输入:人脸图像。输出:是哪个人。
  • 宝可梦识别:输入:物攻、特攻、生命、物防、特防……输出:这是哪个宝可梦。

不能用Regression做Classification,因为两者评价方法不一样。
在这里插入图片描述

一种解法

在这里插入图片描述
用类似贝叶斯公式的方法测算概率。
对training data求正态分布,然后用来预测。
f μ , Σ = 1 ( 2 π ) D / 2 ⋅ 1 ∣ Σ ∣ 1 / 2 e − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) f_{μ,Σ}=\frac{1}{(2π)^{D/2}}·\frac{1}{|Σ|^{1/2}}e^{-\frac{1}{2}(x-μ)^TΣ^{-1}(x-μ)} fμ,Σ=(2π)D/21Σ1/21e21(xμ)TΣ1(xμ)
如何求 μ μ μ Σ Σ Σ
L ( μ , Σ ) = f μ , Σ ( x 1 ) f μ , Σ ( x 2 ) . . . f μ , Σ ( x m ) L(μ,Σ)=f_{μ,Σ}(x^{1})f_{μ,Σ}(x^{2})...f_{μ,Σ}(x^{m}) L(μ,Σ)=fμ,Σ(x1)fμ,Σ(x2)...fμ,Σ(xm)
要求 ( μ ∗ , Σ ∗ ) (μ^*,Σ^*) (μ,Σ)使 L ( μ , Σ ) L(μ,Σ) L(μ,Σ)最大,即:

  • ( μ ∗ , Σ ∗ ) = a r g   m a x μ , Σ L ( μ , Σ ) (μ^*,Σ^*)=arg\ max_{μ,Σ}L(μ,Σ) (μ,Σ)=arg maxμ,ΣL(μ,Σ)
  • μ ∗ = 1 79 ∑ n = 1 79 x n , Σ ∗ = 1 79 ∑ n = 1 79 ( x n − μ ∗ ) ( x n − μ ∗ ) T μ^*=\frac{1}{79}\sum_{n=1}^{79}{x_n},Σ^*=\frac{1}{79}\sum_{n=1}{79}{(x_n-μ^*)(x_n-μ^*)^T} μ=791n=179xnΣ=791n=179(xnμ)(xnμ)T

然后就可以进行Classification:

  • P ( C 1 ∣ x ) = P ( x ∣ C 1 ) P ( C 1 ) P ( x ∣ C 1 ) P ( C 1 ) + P ( x ∣ C 2 ) P ( C 2 ) , i f   P ( C 1 ∣ x ) > 0.5 , t h e n   x   b e l o n g s   t o   c l a s s 1 P(C_1|x)=\frac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)},if\ P(C_1|x)>0.5,then\ x\ belongs\ to\ class1 P(C1x)=P(xC1)P(C1)+P(xC2)P(C2)P(xC1)P(C1),if P(C1x)>0.5,then x belongs to class1

改进

不同的Class可以共用一组covariance(Σ)。原因:如果Σ太多,会导致参数太多,容易出现过拟合的情况。

找到 μ 1 , μ 2 , Σ μ_1,μ_2,Σ μ1,μ2,Σ来最大化 L ( μ 1 , μ 2 , Σ ) L(μ_1,μ_2,Σ) L(μ1,μ2,Σ)
L ( μ 1 , μ 2 , Σ ) = f μ 1 , Σ ( x 1 ) f μ 1 , Σ ( x 2 ) . . . f μ 1 , Σ ( x 79 ) f μ 2 , Σ ( x 80 ) f μ 2 , Σ ( x 81 ) . . . f μ 2 , Σ ( x 140 ) L(μ_1,μ_2,Σ)=f_{μ_1,Σ}(x_1)f_{μ_1,Σ}(x_2)...f_{μ_1,Σ}(x_{79})f_{μ_2,Σ}(x_{80})f_{μ_2,Σ}(x_{81})...f_{μ_2,Σ}(x_{140}) L(μ1,μ2,Σ)=fμ1,Σ(x1)fμ1,Σ(x2)...fμ1,Σ(x79)fμ2,Σ(x80)fμ2,Σ(x81)...fμ2,Σ(x140)
μ 1 , μ 2 μ_1,μ_2 μ1,μ2与之前一样, Σ = 79 140 Σ 1 + 61 140 Σ 2 Σ=\frac{79}{140}Σ_1+\frac{61}{140}Σ_2 Σ=14079Σ1+14061Σ2

其他情况

很多情况下使用正态分布就可以了,但有时正态分布并不能满足需求,如:

B i n a r i y f e a t u r e Binariy feature Binariyfeature(二元特征),比如判断一个宝可梦是不是神兽。

如果假设所有dimensions都是独立的,这个方法叫做Naive Bayes Classifier。

Posterior Probability

P ( C 1 ∣ x ) = P ( x ∣ C 1 ) P ( C 1 ) P ( x ∣ C 1 ) P ( C 1 ) + P ( x ∣ C 2 ) P ( C 2 ) = 1 1 + P ( x ∣ C 2 ) P ( C 2 ) P ( x ∣ C 1 ) P ( C 1 ) = σ ( z ) P(C_1|x)=\frac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1)+P(x|C_2)P(C_2)}=\frac{1}{1+\frac{P(x|C_2)P(C_2)}{P(x|C_1)P(C_1)}}=σ(z) P(C1x)=P(xC1)P(C1)+P(xC2)P(C2)P(xC1)P(C1)=1+P(xC1)P(C1)P(xC2)P(C2)1=σ(z)称此函数为 s i g m o i d   f u n c t i o n sigmoid\ function sigmoid function
z = l n P ( x ∣ C 1 ) P ( C 1 ) P ( x ∣ C 2 ) P ( C 2 ) z=ln\frac{P(x|C_1)P(C_1)}{P(x|C_2)P(C_2)} z=lnP(xC2)P(C2)P(xC1)P(C1) P ( C 1 ∣ x ) = 1 1 + e − 2 P(C_1|x)=\frac{1}{1+e^{-2}} P(C1x)=1+e21
z = l n P ( x ∣ C 1 ) P ( x ∣ C 2 ) + l n P ( C 1 ) P ( C 2 ) = l n P ( x ∣ C 1 ) P ( x ∣ C 2 ) + l n N 1 N 2 z=ln\frac{P(x|C_1)}{P(x|C_2)}+ln\frac{P(C_1)}{P(C_2)}=ln\frac{P(x|C_1)}{P(x|C_2)}+ln\frac{N_1}{N_2} z=lnP(xC2)P(xC1)+lnP(C2)P(C1)=lnP(xC2)P(xC1)+lnN2N1
P ( x ∣ C 1 ) = 1 ( 2 π ) D / 2 ⋅ 1 ∣ Σ 1 ∣ 1 / 2 e − 1 2 ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) P(x|C_1)=\frac{1}{(2π)^{D/2}}·\frac{1}{|Σ_1|^{1/2}}e^{-\frac{1}{2}(x-μ_1)^TΣ_1^{-1}(x-μ_1)} P(xC1)=(2π)D/21Σ11/21e21(xμ1)TΣ11(xμ1)
P ( x ∣ C 2 ) = 1 ( 2 π ) D / 2 ⋅ 1 ∣ Σ 2 ∣ 1 / 2 e − 1 2 ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) P(x|C_2)=\frac{1}{(2π)^{D/2}}·\frac{1}{|Σ_2|^{1/2}}e^{-\frac{1}{2}(x-μ_2)^TΣ_2^{-1}(x-μ_2)} P(xC2)=(2π)D/21Σ21/21e21(xμ2)TΣ21(xμ2)
相除得到 l n ∣ Σ 1 ∣ 1 / 2 ∣ Σ 2 ∣ 1 / 2 e − 1 2 ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) + 1 2 ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) ln\frac{|Σ_1|^{1/2}}{|Σ_2|^{1/2}}e^{-\frac{1}{2}(x-μ_1)^TΣ_1^{-1}(x-μ_1)+\frac{1}{2}(x-μ_2)^TΣ_2^{-1}(x-μ_2)} lnΣ21/2Σ11/2e21(xμ1)TΣ11(xμ1)+21(xμ2)TΣ21(xμ2)
但一般情况下, Σ 1 = Σ 2 = Σ Σ_1=Σ_2=Σ Σ1=Σ2=Σ
所以 z = ( μ 1 − μ 2 ) T Σ − 1 x − 1 2 μ 1 T Σ 1 − 1 μ 1 + 1 2 μ 2 T Σ 2 − 1 μ 2 + l n N 1 N 2 = w T x + b z=(μ_1-μ_2)^TΣ^{-1}x-\frac{1}{2}μ_1^TΣ_1^{-1}μ_1+\frac{1}{2}μ_2^TΣ_2^{-1}μ_2+ln\frac{N_1}{N_2}=w^Tx+b z=(μ1μ2)TΣ1x21μ1TΣ11μ1+21μ2TΣ21μ2+lnN2N1=wTx+b
P ( C 1 ∣ x ) = σ ( w ⋅ x + b ) P(C_1|x)=σ(w·x+b) P(C1x)=σ(wx+b)

总结

In generative model,we estimate N 1 , N 2 , μ 1 , μ 2 , Σ N_1,N_2,μ_1,μ_2,Σ N1,N2,μ1,μ2,Σ,Then,we have w w w and b b b.
但是,能否直接求出 w w w b b b呢?
请看下篇

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值