概念理解
监督学习方法可分为两大类,即生成方法与判别方法,它们所学到的模型称为生成模型与判别模型。
- 判别模型:判别模型是学得一个分类面(即学得一个模型),该分类面可用来区分不同的数据分别属于哪一类;
- 生成模型:生成模型是学得各个类别各自的特征(即可看成学得多个模型),可用这些特征数据和要进行分类的数据进行比较,看新数据和学得的模型中哪个最相近,进而确定新数据属于哪一类。
举个例子:若分类目标是对图像中的大象和狗进行分类。判别方法学得一个模型,这个模型可能是判断图中动物鼻子的长度是否大于某一阈值,若大于则判断为大象,否则判断为狗;生成学习则分别构建一个大象的特征模型与狗的特征模型,来了一个新图像后,分别用大象模型与狗模型与其进行比较,若新图像与狗相似度更高则判断为狗,否则判断为大象。
相关数学理论
若已知某分类任务的生成模型,是可以求得该任务的判别模型,反之则不行。这和概率论中的全概率密度函数以及边沿概率密度函数是一致的(即已知全概率密度可求得边沿概率密度,但已知边沿概率密度不能求得全概率密度)。
例如:若现在已知一个二分类问题获得的5个训练数据为:(1,0),(1,0),(2,0),(2,1),(2,1)
1、全概率分布P(X,Y)如下表所示
X\Y | 0 | 1 |
---|