一、DT
优点:易于理解和解释,可以可视化分析;运行速度较快;可以很好的扩展到大型数据库中。
缺点:对缺失值处理比较困难;容易出现过拟合问题;忽略数据中属性的相互关联;可能或陷于局部最小值中;ID3算法计算信息增益时结果偏向数值比较多的特征。
改进:进行剪枝。采用交叉验证法和正则化的方法。使用基于决策树的combination算法,如bagging算法,randomforest算法,可以解决过拟合的问题。
应用:企业管理实践、企业投资决策。决策树有很好的分析能力,在决策过程中应用较多。
二、Logistic Regression
优点:易于理解和实现,计算代价不高
缺点:易过拟合,分类精度不高
应用:二分类领域,得出概率值。适用于根据分类排名的领域,如搜索排名等。还可以扩展到多分类领域。
三、KNN
优点:KNN是一种在线技术,新数据可以直接加入数据集而不必进行重新训练
缺点:k值的大小选择;样本容量越大,计算量越大;当样本不平衡时,如某一类样本多,某一类样本少时,预测偏差较大。k值属于少数服从多数原则;KNN每一次分类都会进行重新计算。
应用:文本分类,模式识别,聚类分析,多分类领域
四、SVM
优点:解决非线性问题;可以很好处理高维数据集;泛化能力比较强;无局部极小值问题。
缺点:对缺失数据敏感,对核函数的高维映射解释力不强,尤其是径向基函数。
应用:文本分类、图形识别、主要二分类领域(结果为+1和-1)
五、朴素贝叶斯
优点:1、对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类也仅仅是特征概率的数学运算而已。
2、支持增量式运算。即可以实时的对新增的样本进行训练。3、朴素贝叶斯对结果解释容易理解。
缺点:样本属性独立性的假设,是的样本属性有关联时效果不好。
应用:文本分类、欺诈检测
六、人工神经网络
优点:
1、分类准确度高,学习能力极强。
2、对噪声数据鲁棒性和容错性较强。
3、有联想能力,能逼近任意非线性关系。
缺点:
1、神经网络参数较多,权值和阈值。
2、黑盒过程,不能观察中间结果。
3、学习过程比较长,有可能陷入局部极小值。
应用:计算机视觉,自然语言处理,语音识别
七、AdaBoost
优点:
1、很好的利用了弱分类器进行级联。
2、可以将不同的分类算法作为弱分类器。
3、AdaBoost具有很高的精度。
4、相对于bagging算法和Random Forest算法,AdaBoost充分考虑的每个分类器的权重。
缺点:
1、AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定。
2、数据不平衡导致分类精度下降。
3、训练比较耗时,每次重新选择当前分类器最好切分点。
应用:模式识别、计算机视觉领域,用于二分类和多分类场景。
https://blog.csdn.net/mach_learn/article/details/39501849
八、KMeans
应用:社交图谱、相似性匹配(如搜索相似的新闻、帖子)