1、KNN
算法
根据一个点周围最邻近的K个点,少数服从多数确定该点的种类。
重点
K值的选取。
二分类问题,K值一般选奇数。K值越小,噪音影响越大;K值越大,计算量大,越容易过拟合。
交叉验证是选取K值的有效方法。
优点
1、无变量,无需对数据的分布做任何假设
2、K值固定时,无需训练模型
3、适应各种数量复杂分布
4、算法简单易实现
缺点
1、K值选取对模型影响很大
2、应用算法之前,需对所有特征做标准化处理
3、计算时需要很大的内存
4、计算时间复杂度高
2、朴素贝叶斯
算法
找到每个类别的概率,及每一个特征的条件概率,算出每个类别的条件概率,找到最大概率对应的类别
目标函数
最大化后验概率
优点
1、训练速度快,分类快
2、对不相干的特征值不敏感
3、既可以处理连续型特征,也可以处理离散型
4、可以处理实时数据
缺点
各个特征之间必须相互独立