目录
3. 主成分分析PCA:Iris数据集降维后分类 4D->2D
3.1 基于iris_data.csv数据,建立KNN模型实现数据分类(n_neighbors=3)
3.2 对数据进行标准化处理,选取一个维度可视化处理后的效果
一、 定义和公式
1. 决策树 Desicion Tree
决策树:对实例进行分类的树形结构,通过多层判断区分目标所属类别
缺点:忽略属性间的相关性,样本分布不均匀时影响表现
给定训练数据集:
核心:特征选择(每个叶子)应该用哪个特征
三种方法:ID3,C4.5,CART
ID3:用信息熵原理选择信息增益最大的属性作为分类属性,递归的拓展决策树的分支,完成决策树的构造
- 信息熵 Entropy:是度量随机变量不确定性的指标,熵越大,变量不确定性越大
D:当前样本集合,Pk:第k类样本所占比例,如10个样本,第2类样本为5个,其比例为1/2
当Pk=1时,即100%比例,无不确定性