概念属性
信息熵:信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即
条件熵:在X给定的条件下,Y的条件概率分布的熵对Y的数学期望。公式为
信息增益:信息增益就是信息熵和特征条件熵的差。就是说对一个确定的数据集来说,H(X)是确定的,那H(X|Y)在Y特征一定的情况下,随机变量的不确定性越小,信息增益越大,这个特征的表现就越好.
信息增益比
基尼指数(CART)
ID3、C4.5、CART 区别
- ID3只能处理离散型变量,而C4.5和CART都可以处理连续型变量。C4.5处理连续型变量时,通过对数据排序之后找到类别不同的.
- C4.5实际上是对ID3进行优化,通过引入信息增益比,一定程度上对取值比较多的特征进行惩罚,避免ID3出现过拟合的特性,提升了决策树的泛化能力.
- ID3和C4.5只能用于分类任务,而CART不仅可以用于分类,也可以应用于回归任务.
- ID3对样本特征缺失值比较敏感(没有对应的处理机制),而C4.5和CART可以对缺失值进行不同方式的处理.
随机森林
集成学习的主要思路是先通过一定的规则生成多个学习器,再采用某种集成策略进行组合,最后综合判断输出最终结果。通过样本集扰动、输入特征扰动、输出表示扰动、算法参数扰动等方式生成多个学习器,进行集成后获得一个精度较好的"学习器"。
具有代表性的集成学习方法有Boosting,Bagging。
Boosting 采用串行的方式,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。代表性的算法: Adaboost、GBDT、XGBoost。
Bagging是并行的方法,它可以 : 使用相同的算法在不同的训练集上面训练多个基学习器;使用不同的训练算法训练得到多个基学习器。当所有的分类器被训练后,集成可以通过对所有分类器结果的简单聚合来对新的实例进行预测。聚合函数通常对分类是统计模式(例如硬投票分类器)或者对回归取平均。