分类分析学习笔记1

分类分析

  • 理解:通过对训练集进行学习,然后用测试集进行模型性能判断,最后得到需要分类或者预测的结果。
  • 两大类:分类(含二分类和多分类)和预测。前者构造分类器,预测类别编号;后者建立预测模型,预测连续数值。
  • 分类过程:学习过程和分类阶段。
  • 分类任务:通过学习获得目标函数。主要有三类目标函数:布尔型函数、划分空间的目标函数、概率值的目标函数。
  • 常用的决策树、神经网络、规则推到、最近邻

K近邻

  • 定义:判断预测点周围的点,如果周围的大多数点都属于某一个类别的话,预测点也属于这个类别,并且预测点会继承这个类别的性质。
  • 步骤:
    准备好数据;
    计算要分类的点到其他样本点的距离(通常是欧氏距离);
    对距离进行排序,找到k个最近的点;
    根据k个近邻的分类结果,以及少数服从多数原则,将预测点分到同类别数据点最多的那一类。

决策树

  • 既可以做分类预测,又可以做回归。

  • 步骤:首先对数据处理,利用归纳算法生成决策树,然后使用决策树对新数据进行预测分析。本质上,决策树是通过一系列规则对数据进行分类的过程。

  • 构成:根节点、内部决策节点、叶子节点决策结果。

  • 分类过程:
    沿着决策树从上至下遍历,每个决策点都有一个测试。
    对每个节点上问题的不同测试结果导致不同的分支,最后会到达一个叶子节点,这个叶子节点就是最后的类别。
    分类规则:从根节点到叶节点,每一条路径都对应着一条分类规则。

  • 怎么样生成决策树:
    特征选择:保留在树种的决策节点;
    生成决策树;
    决策树剪枝;

  • ID3
    理解:ID3以信息论为基础,以信息熵和信息增益度为衡量标准,选择分裂属性(就是特征),从而实现对数据的归纳分类。
    信息熵`IG(A)=I©-I(C|A)``
    选择信息熵最大的特征划分原始数据。
    信息量的大小与事情发生的概率事件成反比。
    分而治之的方法,提高算法的效率。
    缺点:特征只用了一次;熵的计算过程麻烦;容易选中特征变量中类别多的变量。

  • ID4/5
    采用信息增益比来解决ID3中容易选中特征变量类别多的这个问题。
    解决了ID3中不能处理连续值特征变量的问题:离散化;
    解决了ID3中过拟合问题:通过正则化系数进行初步剪枝。

  • ** 分类回归树CART算法**
    既可以用于分类任务,又可以用于回归任务;分类任务中,采用基尼系数作为特征变量选择依据(基尼系数表示在样本集合中一个随机选中的样本被分错的概率 = 样本被选中的概率*样本被分错的概率);

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值