<数据挖掘导论>读书笔记3--分类

1.分类的基本概念

分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y

目标函数也称为分类模型。

2. 解决分类问题的一般方法:

决策树分类法

基于规则的分类法

神经网络

支持向量机

朴素贝叶斯分类法

3.决策树归纳

通常采用贪心策略,在选择划分数据的属性时,采用一系列局部最优决策来构造决策树,hunt算法就是一种这样的算法。

Hunt算法是许多决策树算法的基础,包括ID3,C4.5,CART等

决策树归纳的设计问题

   如何分裂训练记录?选择最佳划分的度量,增益是一种可以用来确定划分效果的标准。信息增益--信息熵的差

   如何停止分裂过程

4.模型的过分拟合

分类模型的误差大致分为两种:训练误差和泛化误差。

训练误差也称为再代入误差或表现误差,是在训练记录上误分类样本比例

泛化误差是模型在未知记录上的期望误差

模型拟合不足:当决策树很少时,训练和检验误差都很大。出现拟合不足的原因是模型尚未学习到数据的真实结构,因此模型在训练集和检验集上的性能都很差。

模型过分拟合:随着决策树中节点数的增加,模型的训练误差和检验误差都随之降低,然而,一旦树的规模变的很大,即使训练误差还在继续降低,但是检验误差开始增大。

造成模型过分拟合的因素

   噪声导致的过分拟合

   缺乏代表性样本导致的过分拟合

泛化误差估计

   使用再代入估计

   结合模型复杂度 :欧卡姆剃刀

   估计统计上界

   使用确认集

5.评估分类器的性能

    保持方法

    随机二次抽样

   交叉验证

   自助法bootstrap

6.比较分类器的方法

   估计准确度的置信区间

  比较两个模型的性能

  比较两种分类法的性能

 

转载于:https://www.cnblogs.com/davidwang456/p/9667573.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值