MLK,即Machine Learning Knowledge,本专栏在于对机器学习的重点知识做一次梳理,便于日后温习,这篇文章很久之前在本公众号发过,现在拿回来整理下,也算是一种温故而知新了。
Index
- 决策树算法
- 分类算法
- 聚类算法
- 集成算法(AdaBoost算法)
- 人工神经网络算法
- 排序算法
- 关联规则算法(Apriori算法)
01 决策树算法
决策树优点
1、决策树易于理解和解释,可以可视化分析,容易提取出规则。2、可以同时处理标称型和数值型数据。3、测试数据集时,运行速度比较快。4、决策树可以很好的扩展到大型数据库中,同时它的大小独立于数据库大小。
决策树缺点
1、对缺失数据处理比较困难。2、容易出现过拟合问题。3、忽略数据集中属性的相互关联。4、ID3算法计算信息增益时结果偏向数值比较多的特征。
改进措施
1、对决策树进行剪枝。可以采用交叉验证法和加入正则化的方法。2、使用基于决策树的combination算法,如bagging算法,randomforest算法,可以解决过拟合的问题。