(给自己做一个比较清晰的总结,顺便梳理脉络)
把机器学习预测标签的模型大致分为三类,分别是 分类,回归,聚类。
分类模型和回归模型属于有监督学习(Supervised Learning),但不同的是分类预测的类型标签,而回归预测的是连续标签。
聚类属于无监督学习(Unsupervised Learning),只需要把相似的数据聚集在一起,并不需要预测标签。
此外,还有一种集成模型,是把很多不同种的模型组合在一起。一般来说通过投票,票高的标签做为预测的标签输出。
还有一种半监督学习(Semi-Supervised Learning),训练数据由标记数据和未标记数据组成。
分类(Classification)
朴素贝叶斯(Naive Bayes)
决策树(Deicision Tree)
支持向量机SVM(Support Vector Machine)
Nearest Centroid(or Nearest Prototype)
- sklearn.neighbors.NearestCentroid
k邻近k-NN(k-Nearest Neighbour)
多层感知机(Multi-layer Perceptron)
逻辑回归 (Logistic Regression)
回归(Regression)
线性回归(Linear Regression)
岭回归(Ridge Regression)
- 基于L2-norm的正则化(Regularisation)
套索回归(LASSO Regression)
- 基于L1-norm的正则化(Regularisation)
聚类(Clustering)
k-means
soft k-means
PCA
高斯混合模型GMM
集成(Ensemble)
随机森林
stacking
boosting
bagging
半监督学习(Semi-Supervised Learning)
自训练(Self training)
主动学习(Active Learning)
- 这个是不是半监督学习算是有点争议吧,但是这个模型的意义在于搜索实例给标签做人工标记,以便提高准确率。数据集仍然有大量未标记数据,只能运用半监督学习相关模型。所以先分到半监督学习的标题中。
(剩下的以后继续编辑)