Q:什么是分类器?
A:就是用来把输入的数据进行分类的模型(本质上是函数)。
图1,黑色的曲线就是非线性分类器。以曲线的形式分类了红点和蓝点。
图2,黑色的直线就是线性分类器。以直线的形式分类红点和蓝点。
一、线性分类器
以上图的二分类(红点和蓝点)为例:
线性分类器就是用一个“超平面”将两个样本隔离开,如:
- (1)二维平面上的两个样本用一条直线来进行分类;
- (2)三维立体空间内的两个样本用一个平面来进行分类(如下图);
- (3)N维空间内的两个样本用一个超平面来进行分类。
常见的线性分类器有:LR,贝叶斯分类,单层感知机、线性回归,SVM(线性核)等等。
优点 | 缺点 |
---|---|
线性分类器速度快、编程方便且便于理解 | 但是拟合能力低 |
二、非线性分类器
以上图的二分类(红点和蓝点)为例:
非线性分类器就是用一个“超曲面”或者多个超平(曲)面的组合将两组样本隔离开(不属于线性的分类器),如:
- (1)二维平面上的两组样本用一条曲线或折线来进行分类;
- (2)三维立体空间内的两组样本用一个曲面或者折面来进行分类;
- (3)N维空间内的两组样本用一个超曲面来进行分类。
常见的非线性分类器:决策树、RF、GBDT、多层感知机、SVM(高斯核)等等。
优点 | 缺点 |
---|---|
非线性分类器拟合能力强 | 但是编程实现较复杂,理解难度大 |
三、总结
综上,我们可以得出,区分线性分类器与非线性分类器的标准是决策边界(Decision Boundary)的不同
思考:为什么说逻辑回归LR是线性分类器?
我们以二分类(0类、1类)为例:
总结:虽然逻辑回归模型特征经过非线性函数Sigmoid的转换,但是它的决策边界是线性方程,所以逻辑回归LR是非常典型的线性分类器。
决策边界的由来:决策边界上的样本被划分为正负样本的概率相等,即P(y=1|x,w) = P(y=0|x,w)得到,移项相除,两边取对数。