机器学习算法我们了解了很多,但是放在一起来比较优缺点是缺少的,本篇文章就一些常见的算法来进行一次优缺点梳理。
决策树算法
一、决策树优点
1、决策树易于理解和解释,可以可视化分析,容易提取出规则。
2、可以同时处理标称型和数值型数据。
3、测试数据集时,运行速度比较快。
4、决策树可以很好的扩展到大型数据库中,同时它的大小独立于数据库大小。
二、决策树缺点
1、对缺失数据处理比较困难。
2、容易出现过拟合问题。
3、忽略数据集中属性的相互关联。
4、ID3算法计算信息增益时结果偏向数值比较多的特征。
三、改进措施
1、对决策树进行剪枝。可以采用交叉验证法和加入正则化的方法。
2、使用基于决策树的combination算法,如bagging算法,randomforest算法,可以解决过拟合的问题
四、常见算法
一)C4.5算法
ID3算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。ID3算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。
C4.5算法核心思想是ID3算法,是ID3算法的改进,改进方面有:
用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
在树构造过程中进行剪枝;
能处理非离散的数据;
能处理不完整的数据。
优点:产生的分类规则易于理解,准确率较高。
缺点:
1)在构造树的过程中,需要对数据