分类——其他技术

本文详细介绍了多种分类算法,包括基于规则的分类器(如顺序覆盖算法、RIPPER)、最近邻分类器及其优缺点、贝叶斯分类器(贝叶斯定理、朴素贝叶斯和贝叶斯信念网络)、人工神经网络(感知器、多层神经网络、反向传播算法)以及支持向量机。此外,还讨论了不平衡类问题对分类算法的影响。
摘要由CSDN通过智能技术生成

一.基于规则的分类器

(1)概念:

基于规则的分类器是使用一组“if…then…”规则来对记录进行分类的技术。

(2)规则提取方法

1.直接法:直接从数据中提取分类规则。
a. 顺序覆盖算法:决定提取类 y 的规则后,类 y 的所有训练记录被看做是正例,而其他类的训练记录则被当成反例,如果一个规则覆盖大多数正例,没有或仅覆盖极少数反例,那么该规则是可取的。找到这样规则后,删掉它所覆盖的训练记录,再继续寻找新的规则,直到满足终止条件。

b.RIPPER算法:算法选择以多数类作为默认类,并为预测少数类学习规则。对于多数类问题,先按类的频率对类进行排序,设(y1,y2,…,yc)是排序后的类,其中y1是最不频繁的类,而yc是最频繁的类。在第一次迭代中,把属于y1的样例标记为正例,而把其他类的样例标记为反例,使用顺序覆盖算法产生区分正例和反例的规则。接下来,PIPPER算法提取区分y2和其他类的规则。重复这个过程,直到剩下类yc,此时yc作为默认类。(非常适合处理类分布不平衡的数据集)

2.间接法:从其他分类模型(如决策树和神经网络)中提取分类规则。

二.最近邻分类器

(1)概念:

找出和测试样例的属性相对接近的所有训练样例,这些训练样例称为最近邻,可以用来确定测试样例的类标号。最近邻分类器把每个训练样例看做d维空间上的一个数据点,其中d是属性个数,给定一个测试样例z,计算z与每个训练样例的邻近度,找出与之最近的k个训练样例,将这k个训练样例中出现最多的类标号赋给z。

k值大小的选取很关键:
k值太小,则最近邻分类器容易受到由于训练数据中的噪声而产生的过分拟合的影响;
k值太大,则最近邻列表里可能包含远离其近邻的数据点,从而导致误分类。

(2)优缺点

优点:
1.不需要为训练集建立模型
2. 最近邻分类器可以生成任何形状的决策边界

缺点:
1.容易受到噪声的影响
3. 往往需要对训练集进行预处理才能使用
4. 每一次分类耗时长(因为需要逐个计算测试样例和训练样例之间的相似度)

三.贝叶斯分类器

(1)贝叶斯定理

它是一种把类的先验知识和从数据中收集的新证据相结合的统计原理。

1.贝叶斯定理是关于随机事件 X 和 Y 的条件概率:
        在这里插入图片描述

其中P(Y|X)是在 X 发生的情况下 Y 发生的可能性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值