朴素贝叶斯 常用于文本分类
对缺失值不敏感、能处理多分类、算法简单
需要计算先验概率、先验有一定的错误率;模型假设是各特征相互独立,所以面对相关性较强的特征可能分类效果不好
本质是根据先验概率和数据来估计后验分布,也有一定的错误率
KNN
简单有效
类别重叠时,效果比别的分类器好一些
可用于非线性分类;
对数据没有假设,准确度高,对异常值不敏感;
缺点
计算量大;
样本不平衡问题
需要大量的内存;
决策树
逻辑清晰,便于向业务人员解释
不需要考虑特征之间的相关性
分类速度快
不需要对数据进行预处理
缺点
容易过拟合 忽略数据之间的相关性。信息增益偏向取值较多的特征 增益比偏向取值较少的特征
K-means
算法简单 容易实现 适合数值型数据
当簇密集时 分类效果较好
大规模数据收敛慢
对噪声和孤点较敏感
对初始点敏感 k值难取
逻辑回归
主要是线性划分即 假设数据服从伯努利分布 通过极大似然函数 利用梯度下降求解 从而实现二分类的方法
模型简单 可解释性好
运算内存需求小 训练速度快 输出结果就是各样本的概率分数 便于划分阈值
模型简单 分类效果有限 无法筛选变量 很难处理样本不平衡的问题 对异常值敏感