适用问题
监督学习主要包括分类、标注、回归问题。标注问题是从观测序列到标记/状态序列的过程,相比二分类问题,其数目上是指数级区别。
模型
非概率模型,是指直接由输入X得到输出Y,或者得到输出的条件概率分布P(Y|X)的模型,对于监督学习也叫做判别模型。感知机、k近邻、支持向量机SVM、提升方法是非概率模型;概率模型首先学习联合概率密度P(X,Y),然后求出条件概率密度P(Y|X),在监督学习中称为生成模型,朴素贝叶斯法、隐马尔可夫模型是生成模型;决策树、Logistic回归与最大熵、条件随机场,既可以看作概率模型又可以看作判别模型,一般称为判别模型。
提升方法的特征空间就是弱分类器的特征空间。
感知机是线性模型;Logistic、最大熵、条件随机场为对数线性模型;k近邻、决策树、支持向量机、提升方法为非线形模型。
学习策略
支持向量机使用的损失函数(合页损失函数):
[ 1 − y f ( x ) ]