1.分类分析
通过样本学习分类关系(分类规则)
一般流程:
1.数据准备:
检查样本属性特征是否一致、完整,不同样本之间是否相互独立
2.特征选择:
选择与类别相关的特征,可大致分为:强相关(能区分类别的属性)、弱相关(能区分部分类别的水属性)、不相关(不能区分类别的属性)
3。建立分类器:
训练集——>分类算法——>模型
通过可信度来评判模型
2.决策树——分类模型
树形结构,属性分割,节点表示分布
2个步骤:生成、修剪
应用:对未知数据分割
典型算法:ID3算法
决策树中,非叶节点——非类别属性值(特征)
树枝——属性的值
叶节点——根到叶的路径对应对应的记录所属的类别属性值
非叶节点:与属性中具有最大信息量的非类别属性相关联
属性选择度量——信息增益
信息增益度量,也称属性选择度量,分类优劣度量
目标:选择最高信息增益(或最大熵压缩)的属性,该属性反映划分的最小随机性或“不纯性”
特点:数据是离散的,解决的是分类问题
根节点:区分能力最强
区分能力强弱通过最大信息量(信息增益)来区分
选择度量、纯度、熵——信息量
树可以转换为IF-THEN分类规则<=>根到叶子的路径
算法分析:
自上而下,分而治之——贪心算法
度量:信息增益
停止条件:无属性可继续区分或各分值已纯
过度适应问题:
剪枝
先剪枝、后剪枝