基本概念
有监督学习
-
分类和回归
-
在分类算法中目标变量的类型通常是标称型的,在回归算法中通常是连续型的
无监督学习
- 聚类:将数据集合分成由类似的对象组成的多个类的过程被称为聚类
- 密度估计:寻找描述数据统计值的过程称为密度估计
用于执行分类、回归、聚类和密度估计的机器学习算法
监督学习算法 | 监督学习算法用途 |
---|---|
k-近邻算法 | 线性回归 |
朴素贝叶斯算法 | 局部加权线性回归 |
支持向量机 | Ridge回归 |
决策树 | Lasso最小回归系数估计 |
无监督学习算法 | 无监督学习算法用途 |
---|---|
k-均值 | 最大期望算法 |
DBSCAN | Parzen窗设计 |
如何选择合适的算法
考虑使用算法的目的
- 如果需要预测目标变量的值,可以选择监督学习算法,否则选择无监督学习算法
- 确定选择卷度学习算法后,需要进一步确定目标变量类型:
- 目标变量是离散型,选择分类器算法
- 目标变量是连续型的数值,选择回归算法
- 如果不想预测目标变量的值,则可以选择无监督的学习算法
- 分析是否需要将数据划分为离散的组
- 如果是,使用聚类算法
- 是否还需要估计数据与每个分组的相似程度
- 需要则使用密度估计算法。
- 分析是否需要将数据划分为离散的组