MDLP 详解

最新推荐文章于 2024-09-02 08:26:37 发布

阿塔塔塔

最新推荐文章于 2024-09-02 08:26:37 发布

阅读量3.9k

点赞数

分类专栏：算法论文选读

本文链接：https://blog.csdn.net/fengfei9225/article/details/84501548

版权

MDLP（Minimum Description Length Principle）是一种有监督的离散化方法，常用于连续特征的处理。它通过熵和信息量的概念，在决策树构建过程中找到最佳分割点，避免异常值影响，利于特征交叉。MDLP利用最小描述长度准则来判断分割是否合理，通过构建通讯问题模型解释其应用，并通过编码长度的计算来决定是否继续分割。

摘要由CSDN通过智能技术生成

MDLP 论文解析

前言

前言

学习这个离散化算法的契机是因为身边有个朋友过来问，但网上相关资料又不太多，所以只能死磕论文。具体的论文是：Multi-Interval Discretization of Continuous-Valued Attributes for Classification Learning.

Introduction

对连续变量离散化有以下几个好处，一，避免异常值的影响；二，容易做交叉特征。一般对连续变量进行离散化，有两种比较简单易实施的无监督方法：等频和等距。但是这两种方法都比较粗暴，等距还会受到异常值的影响。

等频分箱：按照观测个数均分为 N 等分，每个分箱里面的观测数量基本一致；
等距分箱：把观测值从最小值到最大值之间均分为 N 等份，每个区间当作一个分箱；

以上两种无监督的离散方法或多或少都有一些问题，这时，有监督的离散化方法就有了用武之地了。接下来主要介绍一下 MDLP 的思路。

二分离散（Binary Discretization）

在建立一棵决策树的过程中，连续特征会被逐渐被二分（如果该特征被选中是最佳分割点），这样的方法被应用于 ID3 以及它的变体 GID3*, CART 等中。
依据划分前后熵的变化，选出最佳分割点。对集合 $S$ ，熵的定义如下：
$-\sum_{i=1}^k P(C_i, S)log(P(C_i, S)),$
其中， $C_i$ 是数据集中第 $i$ 个类， $P(C_i, S)$ 是第 $i$ 个类在集合 $S$ 中的比例。
当 $l o g$ 的底数是 2 时， $E n t (S)$ 衡量了表达 $S$ 中包含的类所需要的信息量，单位是 bits。
假设选中最佳分割点后，集合 $S$ 被分割成子集 $S_1$ 和 $S_2$ ，则分割后的熵是子集熵的加权平均，如下：
$\frac{|S_1|}{|S|} Ent(S_1) + \frac{|S_2|}{S}Ent(S_2)。$
其中， $A$ 是特征，