生活有懒散,而我仍拖懒~
Day 4
1.7 生成模型与判别模型
监督学习方法可以分为:生成方法与判别方法,与此对应生成模型与判别模型。
生成方法即由数据学习联合概率分布(P(x,y)),再由概率条件分布(p(y|x))作为预测的模型,即是生成模型:
之所以命名为生成方法,是因为模型给出了输入X产生输出Y的生成关系。典型的生成模型有:朴素贝叶斯法及隐性马尔科夫模型。
判别方法 由数据直接学习决策函数f(x)或者条件概率分布P(Y|X)作为预测的模型,即判别模型,其关心的主要是给定特定的输入X,应该预测什么样的输出Y。典型的判别模型包括:k近邻法,感知机,决策树,逻辑斯特回归模型,最大熵模型,支持向量机,提升方法以及条件随机场等。
区别:生成方法可以还原联合概率分布P(x,y),收敛速度快,可以应用于存在隐变量的情况下。
判别方法学习准确率高,可以对数据进行各种程度上的抽象、定义特征并使用特征,简化学习问题。
1.8 分类问题
当监督学习中输出变量取离散的值时,预测问题便成为分类问题,这时,输入变量X可以为离散的,也可以为连续的,监督学习从数据当中学习一个分类模型或者分类决策函数,成为分类器,分类器对新的输入进行输出的预测,称为分类,可能的输出称为类,分类的类别为多个时,称为多类分类问题。
分类分为:学习和分类两大过程。
process:在学习的过程中,利用学习方法学习一个分类器,在分类过程中,利用分类器对新的输入数据进行分类。
评价分类器的指标一般是分类准确率,其定义是:对于给定是数据,其分类正确率与总数据之比。
对于二类问题,其评价指标为:准确率与召回率。以关注的类为正类,其他类为负类。