写在前面:本人也是处于学习ing,本片内容引自机器学习常见算法优缺点总结!,对此加以略微排版总结到知乎中。对于内容中有更好的总结,望各位多加评论、指导,谢谢。
- 决策树算法
- 分类算法
- 聚类算法
- 集成算法(AdaBoost算法)
- 人工神经网络算法
- 排序算法
- 关联规则算法(Apriori算法)
一、 决策树算法
决策树优点:
1、决策树易于理解和解释,可以可视化分析,容易提取出规则。
2、可以同时处理标称型和数值型数据。
3、测试数据集时,运行速度比较快。
4、决策树可以很好的扩展到大型数据库中,同时它的大小独立于数据库大小。
决策树缺点:
1、对缺失数据处理比较困难。
2、容易出现过拟合问题。
3、忽略数据集中属性的相互关联。
4、ID3算法计算信息增益时结果偏向数值比较多的特征。
改进措施:
1、对决策树进行剪枝。可以采用交叉验证法和加入正则化的方法。
2、使用基于决策树的combination算法,如bagging算法,randomforest算法,可以解决过拟合的问题。
常见算法
1)C4.5算法
ID3算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。ID3算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。C4.5算法核心思想是ID3算法,是ID3算法的改进。
改进方面有:
1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向