1. 有监督与无监督的区别
是否为有监督需要看输入的数据是否含有标签(label)。
数据含有标签,为有监督;不含有标签,为无监督;半监督学习:综合利用有类标签的数据和没有类标签的数据,来生成合适的分类函数。利用少量标注样本和大量未标注样本进行机器学习,从概率学习角度可理解为研究如何利用训练样本的输入边缘概率 P(x)和条件输出概率P (y|x)的联系设计具有良好性能的分类器。
2. 生成模型与判别模型的区别
生成模型:由数据学习联合概率分布,然后求出条件概率分布作为预测的模型。即给定x产生出y的生成关系。
典型比如:朴素贝叶斯方法、隐马尔科夫方法。
判别模型:由数据直接学习决策函数或者条件概率分布作为预测模型。给定x应该预测什么样的输出y。
典型比如:KNN、感知机、决策树、逻辑斯蒂回归、最大熵、svm、提升方法、条件随机场。
各自特点:
- 生成模型可以还原联合概率分布P(x,y),而判别模型不行。生成模型学习速度快。
- 判别模型是直接学习决策函数或者条件概率分布,直接面对预测,往往可以得到更高的准确率。因此可以对数据进行各种程度的抽象,定义特征并使用特征。