数据挖掘（5）分类数据挖掘：基于距离的分类方法

烟雨平生9527

已于 2023-10-18 20:31:47 修改

阅读量847

点赞数

分类专栏： # 数据挖掘软件工程文章标签：数据挖掘分类人工智能

于 2023-10-15 20:28:50 首次发布

本文链接：https://blog.csdn.net/qq_62377885/article/details/133690475

版权

36 篇文章 7 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

一、分类挖掘的基本流程

最常用的就是客户评估

基于距离的分类方法
决策树分类方法
贝叶斯分类方法

数据准备

评估方法

定义:测量不同特征值之间的距离方法进行分类
工作原理:
优缺点
- 优点:精度高、对异常值不敏感，无数据输入假定
- 缺点:时空复杂度高、适用于数值型、离散型数据
注意的问题
1. K值选择：一般选择一个比较小的数，需要用大量实验来选择
2. 结果的输出：多数表决决定
3. 距离度量：一般采用p=2时，欧氏距离。同时注意权重问题

在ID3算法中:偏向分割属性中取值多的一个
- 当子集规模越小，每个子集内只有一个行，信息增益必然最大(熵最小)
- 解决方法:增益比例
- C4.5根据增益比例选择节点分裂属性
增益比例G(X,Y)
- 类别X、分裂属性Y
- $G(X,Y)\;=\;\frac{I(X\vert Y)}{H(Y)}=\frac{H(X)-H(X\vert Y)}{H(Y)}$
- 引入分母H ( Y ) 偏向分割属性中取值较多的一个属性
- $H(Y)\;=\;\overset{}{\underset{}{\sum_{i=1}^NP(y_i)}}\;\log_2P(y_i)$
存在问题与解决的方法:
- 取值个数过多、过少
  - 分割属性属性取值个数过多的话，H(Y)增大，但是G(X,Y)减小
  - 当取值个数很少时，存在 $P(y_i) =1$ ，则H(Y)=0,G(X,Y)就会很大
  - 解决方法
- ID3只能处理离散分割属性
  - ·原因:如果把连续值看做离散值，会产生分割属性偏向问题
  - 解决方法
- 对于连续取值的属性，如何选择阈值
  - 将取值从小到大排序:{y1,y2,…,yn}
  - 对于每个yi计算增益比例，找到最大值 $G(X,Y)$
- ID3:无法对未知分割属性进行处理
  - 原因:分割属性Y的一个取值yi,由于一些原因被计入
  - 解决方法:平均值代替(数值型属性)、概率法代替(离散属性)
- ID3:无树剪枝，易受到噪声、波动影响
  - 解决方法:K阶交叉验证
  - 用K-1份训练决策树、用剩下的1份去测试性能，总共进行k次迭代

采用:基于最小距离的基尼指数估计函数
- 生成二叉树
- 可以处理连续取值的数据
  - 20、23、24、26，划分为两类一类小于某个数，另一类大于某个数
  - 但是不推荐，最好离散化
Gini指数
- $Gini(D)\;=\;1-{\textstyle\sum_{i=1}^m}p_i^2$
- 取值越小，表达的不确定性越小
- 属性必须是二叉结构
- 计算某个属性有几个二叉结构:属性值为n,有 $\frac{(2^n-2)}2$ 种划分方法
- 举例
  - 与ID3算法一致，只是根据 $Gini_A(D)=\frac{\vert D_1\vert}{\vert D\vert}Gini(D_1)\;+\;\frac{\vert D_2\vert}{\vert D\vert}Gini(D_2)\;$ 计算，选择Gini指标最小的。