这里我主要介绍以下几种模型:
- k近邻法
- 朴素贝叶斯法
- 决策树
- 逻辑斯蒂回归
- 支持向量机
- adaBoost方法
K近邻法
原理
输入:实例的特征向量
输出:实例的类别
算法描述:
(1)在训练集中找出与实例最近邻的k个点,涵盖这k个点的邻域记做 Nk(x)
(2)在 Nk(x) 中根据分类决策规则决定x的类别
优缺点
优点:精度高,对异常值不敏感,无数据输入假定
缺点:计算复杂度高,空间复杂度高
适用场景
一般适用于数值型数据和标称型数据
决定要素
距离度量、k值选择、分类决策规则,是k近邻的三大要素,它不具有显示学习的过程。
参考文献
1.Cover T,Hart P.Nearest neighbor pattern classification.IEEE Transaction on information Theory 1967
朴素贝叶斯方法
原理
朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。
输入:随机向量 X
输出:类标记
基本思想:对于给定的输出 x ,通过学习到的模型计算后验概率分布