分类-主要方法
决策树
采用贪心策略以自顶向下的分治法构造决策树。
1. 选择样本集的一个属性作为根节点,为该属性的每个值产生一个分支
2. 将每个分支递归使用其他属性进行划分,仅使用真正到达这个分支的样本
3. 如果在一个节点上的所有样本都有相同的类别,即停止该部分树的扩展
基本问题
1. 选择属性的顺序
ID3 Information Galm 迭代的二分器
标准:信息增益,哪个加入的信息多(熵的减少)
通过特征划分数据,使用特征来建立模型,贪心选择哪个特征根据该划分产生的信息量。
C4.5 Gain Ratio ID3的后继
CART Gial Index 分类与回归树 使用gini选择属性
2. 什么时候停止
停止条件
产生完全树后进行剪枝
优点
1. 结构建立原理上可信,容易让人理解
遗传算法:
进化计算:模拟生物中的进化,解决优化问题,包括进化策略、进化规划、遗传策略