我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的、自己不知道的东西。
已经有人记了笔记(很用心,强烈推荐):
https://github.com/Sakura-gh/ML-notes
本节对应笔记:https://sakura-gh.github.io/ML-notes/ML-notes-html/6_Classification.html
本节内容综述
- 背景介绍,什么是“分类”问题。以宝可梦属性到种类的映射为例。
- 分类问题不能直接使用 linear regression 模型,因为回归模型会
penalize to the examples that are "too correct"(Bishop, P186)
。 - 对于分类模型,应该在 f ( x ) f(x) f(x) 内置去呗类别的函数,并且损失函数设为 L ( f ) = ∑ n δ ( f ( x n ) ≠ y ^ n ) L(f) = \sum_n \delta (f(x^n) \neq \hat{y}^n) L(f)=∑nδ(f(xn)=y^n),但是没办法微分。SVM是一个解决方案,但是今天先不讲这个。
- 基于“盒子抽球”,从二元分类问题起,讨论一个贝叶斯/条件概率模型问题。
- 在神奇宝贝分类的例子中,进行首先基于数据进行一个高斯分布的拟合(使用
极大似然法
),这样就可以基于这个高斯分布计算出各个单个数据的采样的几率
。 - 接着,基于 P ( C 1 ∣ x ) = P ( x ∣ C 1 ) P ( C 1 ) P ( x ∣ C 1 ) P ( C 1 ) + P ( x ∣ C 2 ) P ( C 2 ) P(C_1|x) = \frac{P(x|C_1)P(C_1)}{P(x|C_1)P(C_1) + P(x|C_2)P(C_2)} P(C1∣x)=P(x∣C