分类分析学习笔记1

最新推荐文章于 2022-03-06 20:54:05 发布

Nicooo99

最新推荐文章于 2022-03-06 20:54:05 发布

阅读量588

点赞数

本文链接：https://blog.csdn.net/Nicooo99/article/details/109008982

版权

分类分析

理解：通过对训练集进行学习，然后用测试集进行模型性能判断，最后得到需要分类或者预测的结果。
两大类：分类（含二分类和多分类）和预测。前者构造分类器，预测类别编号；后者建立预测模型，预测连续数值。
分类过程：学习过程和分类阶段。
分类任务：通过学习获得目标函数。主要有三类目标函数：布尔型函数、划分空间的目标函数、概率值的目标函数。
常用的决策树、神经网络、规则推到、最近邻

K近邻

定义：判断预测点周围的点，如果周围的大多数点都属于某一个类别的话，预测点也属于这个类别，并且预测点会继承这个类别的性质。
步骤：
准备好数据；
计算要分类的点到其他样本点的距离（通常是欧氏距离）；
对距离进行排序，找到k个最近的点；
根据k个近邻的分类结果，以及少数服从多数原则，将预测点分到同类别数据点最多的那一类。

决策树

既可以做分类预测，又可以做回归。
步骤：首先对数据处理，利用归纳算法生成决策树，然后使用决策树对新数据进行预测分析。本质上，决策树是通过一系列规则对数据进行分类的过程。
构成：根节点、内部决策节点、叶子节点决策结果。
分类过程：
沿着决策树从上至下遍历，每个决策点都有一个测试。
对每个节点上问题的不同测试结果导致不同的分支，最后会到达一个叶子节点，这个叶子节点就是最后的类别。
分类规则：从根节点到叶节点，每一条路径都对应着一条分类规则。
怎么样生成决策树：
特征选择：保留在树种的决策节点；
生成决策树；
决策树剪枝；
ID3
理解：ID3以信息论为基础，以信息熵和信息增益度为衡量标准，选择分裂属性（就是特征），从而实现对数据的归纳分类。
信息熵`IG（A）=I©-I(C|A)``
选择信息熵最大的特征划分原始数据。
信息量的大小与事情发生的概率事件成反比。
分而治之的方法，提高算法的效率。
缺点：特征只用了一次；熵的计算过程麻烦；容易选中特征变量中类别多的变量。
ID4/5
采用信息增益比来解决ID3中容易选中特征变量类别多的这个问题。
解决了ID3中不能处理连续值特征变量的问题：离散化；
解决了ID3中过拟合问题：通过正则化系数进行初步剪枝。
** 分类回归树CART算法**
既可以用于分类任务，又可以用于回归任务；分类任务中，采用基尼系数作为特征变量选择依据（基尼系数表示在样本集合中一个随机选中的样本被分错的概率 = 样本被选中的概率*样本被分错的概率）；