信息论基础
熵:表示随机变量的不确定性。H(X) = -Σp(x)lnp(x)
联合熵:两个随机变量X,Y的联合分布,可以形成联合熵(Joint Entropy)。H(X, Y) = -Σp(x, y) lnp(x, y)
条件熵:表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。H(Y|X)=H(X,Y)−H(X)
信息增益:在一个条件下,信息不确定性减少的程度。信息增益 = 熵 - 条件熵
基尼不纯度:将来自集合中的某种结果随机应用于集合中某一数据项的预期误差率。
决策树的不同分类算法
ID3算法
ID3算法是决策树的一种,它是基于奥卡姆剃刀原理的,即用尽量用较少的东西做更多的事。ID3算法,即Iterative Dichotomiser 3,迭代二叉树3代,是Ross Quinlan发明的一种决策树算法,这个算法的基础就是上面提到的奥卡姆剃刀原理,越是小型的决策树越优于大的决策树,尽管如此,也不总是生成最小的树型结构,而是一个启发式算法。
在信息论中,期望信息越小,那么信息增益就越大,从而纯度就越高。ID3算法的核心思想就是以信息增益来度量属性的选择,选择分裂后信息增益最大的属性进行分裂。该算法采用自顶向下的贪婪搜索遍历可能的决策空间。
c++实现算法:https://www.cnblogs.com/starfire86/p/5749328.html
C4.5
C4.5算法流程与ID3相类似,只不过将信息增益改为信息增益比。
CART分类树
https://www.cnblogs.com/yonghao/p/5135386.html
回归树
https://blog.csdn.net/weixin_40604987/article/details/79296427
决策树防止过拟合的手段
https://blog.csdn.net/qq_28168421/article/details/53456090