有监督VS无监督
我们知道,机器学习的主要任务有分类、回归、标记、降维、特征学习、密度估计和生成数据等,它们可以总结为两部分——有监督学习和无监督学习,无论是哪一种,都是对样本进行模型建立,这又可以从两个角度建模——概率模型和非概率模型。
对于概率模型,进一步分为概率判别模型和概率生成模型,前者对条件概率p(y|x)建模,后者对联合概率p(x,y)建模。在之前的文章中我们反复提到这一点。
本文我们就对学过的机器学习模型做一个总结。
先看有监督模型,我们学过的逻辑回归(LR)属于概率判别模型,以及概率图模型的最大熵马尔科夫模型(MEMM)和条件随机场(CRF)都属于判别模型。而非概率模型典型的有感知机算法(PLA)、支持向量机(SVM)、K近邻(KNN)、决策树(TreeModel)和带有标记的神经网络(NN)。
无监督模型中,没有判别模型,因为没有标记Y,就一定不属于判别模型。而非概率模型典型的有降维(PCA等)、潜语义分析(LSA)、聚类(Kmeans等)、自编码(Auto-Encoder)
生成模型
生成模型,本质是对样本分布本身进行建模。概率图模型大部分都属于生成模型,其中,最简单的是朴素贝叶斯(Navie Bayes)。
如果在朴素贝叶斯基础上加上隐变量,就成了混合模型(Mixture Model),典型的是高斯混合模型(GMM)。
在此基础上加上时间序列,就发展为时间序列模型(Time-Series Model),典型的有隐马尔科夫模型(HMM),卡尔曼滤波(Kalman Filter)和粒子滤波(Particle Filter)。
引入无限的参数状态空间后,就是Non-Parameteric Bayesian Model,主要的特点是参数不是一个确定的值,而是服从一个分布,典型的有高斯过程(GP)和狄利克雷过程(DP)。
接下来生成模型还有Mixed Membership Model,代表是LDA 模型,以及因子模型(Factorial Model),包括因子分析(factor analysis),概率PCA 模型(P-PCA),ICA,和稀疏编码(SparseCoding)等。
以上六种是浅层生成模型,结合深度学习,就发展为深层生成模型。包括深度生成模型系列,变分自编码和生成对抗网络都属于这一类,除此之外,Flow-base model,即流模型也属于生成模型。