分类分析
- 理解:通过对训练集进行学习,然后用测试集进行模型性能判断,最后得到需要分类或者预测的结果。
- 两大类:分类(含二分类和多分类)和预测。前者构造分类器,预测类别编号;后者建立预测模型,预测连续数值。
- 分类过程:学习过程和分类阶段。
- 分类任务:通过学习获得目标函数。主要有三类目标函数:布尔型函数、划分空间的目标函数、概率值的目标函数。
- 常用的决策树、神经网络、规则推到、最近邻
K近邻
- 定义:判断预测点周围的点,如果周围的大多数点都属于某一个类别的话,预测点也属于这个类别,并且预测点会继承这个类别的性质。
- 步骤:
准备好数据;
计算要分类的点到其他样本点的距离(通常是欧氏距离);
对距离进行排序,找到k个最近的点;
根据k个近邻的分类结果,以及少数服从多数原则,将预测点分到同类别数据点最多的那一类。
决策树
-
既可以做分类预测,又可以做回归。
-
步骤:首先对数据处理,利用归纳算法生成决策树,然后使用决策树对新数据进行预测分析。本质上,决策树是通过一系列规则对数据进行分类的过程。
-
构成:根节点、内部决策节点、叶子节点决策结果。
-
分类过程:
沿着决策树从上至下遍历,每个决策点都有一个测试。
对每个节点上问题的不同测试结果导致不同的分支,最后会到达一个叶子节点,这个叶子节点就是最后的类别。
分类规则:从根节点到叶节点,每一条路径都对应着一条分类规则。 -
怎么样生成决策树:
特征选择:保留在树种的决策节点;
生成决策树;
决策树剪枝; -
ID3
理解:ID3以信息论为基础,以信息熵和信息增益度为衡量标准,选择分裂属性(就是特征),从而实现对数据的归纳分类。
信息熵`IG(A)=I©-I(C|A)``
选择信息熵最大的特征划分原始数据。
信息量的大小与事情发生的概率事件成反比。
分而治之的方法,提高算法的效率。
缺点:特征只用了一次;熵的计算过程麻烦;容易选中特征变量中类别多的变量。 -
ID4/5
采用信息增益比来解决ID3中容易选中特征变量类别多的这个问题。
解决了ID3中不能处理连续值特征变量的问题:离散化;
解决了ID3中过拟合问题:通过正则化系数进行初步剪枝。 -
** 分类回归树CART算法**
既可以用于分类任务,又可以用于回归任务;分类任务中,采用基尼系数作为特征变量选择依据(基尼系数表示在样本集合中一个随机选中的样本被分错的概率 = 样本被选中的概率*样本被分错的概率);