这篇主要是搜集了数分面经中出现的有关机器学习的问题,会一直更新的哦。
关于模型一般是从原理、优缺点、应用场景和优化方式四方面来总结。
有监督学习
决策树
决策树(Decison Tree)也称分类树或回归树,它是一个树状结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。
与线性模型(逻辑回归、神经网络等)不同,它的学习过程不是为每个特征学习一个权重,而是根据某种决策不断地对数据集进行分裂,使得到的子数据集上的标签越来越纯净,最终得到的模型就是一个树形结构。
原理
决策树有很多种,三种经典决策树:
ID3
C4.5
C5.0
优缺点
-
优点
数据准备简单,不要求数据属性统一,对缺失值不敏感,能够处理不相关的特征,计算量小,效率高,可解释性强 -
缺点
对连续性字段较难预测;处理特征关联性很强的数据时表现不佳;趋向过拟合;可能陷入局部最小值中;没有在线学习
应用场景
因为它能够生成清晰的基于特征(feature)选择不同预测结果的树状结构,数据分析师希望更好的理解手上的数据的时候往往可以使用决策树。
受限于它的简单性,决策树更大的用处是作为一些更有用的算法的基石。
优化方式
-
修剪枝叶
- 前置裁剪
- 后置裁剪
-
随机森林(Random Forest)