数据挖掘：数据挖掘导论第四章

最新推荐文章于 2023-10-08 15:35:24 发布

tong_xin2010

最新推荐文章于 2023-10-08 15:35:24 发布

阅读量1.8k

点赞数

分类专栏：数据挖掘文章标签：数据挖掘

本文链接：https://blog.csdn.net/tong_xin2010/article/details/24195851

版权

数据挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

2014.4.20

参考资料：Introduction to Data Mining, Chap 4

4.2

首先是General Approach to Solving a Classification Problem，即“分类问题的总体分类”

首先，要有训练数据集Train Set，要有学习算法Learning Machine。学习算法以训练数据集为材料，训练出一个符合Train Set的模型Model。然后用这个Model来推测测试用的数据集，看效果怎么样。即分类问题的结果是一个较好的Model。这个过程可以用下图表示

建立了Model以后，用这个Model在测试数据集Test Set中预测正确的比例评价得出的Model怎么样！

/********************************************************************************************/

4.3 Decision Tree Induction

4.3.1

介绍了一个分类classification问题是怎么用Decison Tree解决的。

4.3.2

建立decision tree的algorithm usually employ a greedy strategy that grows a decision tree by making a series of locally optimum decisions about which attribute to use for partitioning the data.

意思是，有很多属性attribute可供选择用以当增加decision tree的判断条件。具体选择哪一个属性呢？很多算法会拿各个属性进行划分尝试，哪个属性在当前的划分效果最好，就拿那个属性做下一步的判断条件。

4.3.3

讲的是，当选择了一个属性作为增加decision tree的判断条件后，我们具体怎么用这个属性做判断条件呢？给出了几种情况：当属性是binary attribute时，当属性是nominal attribute时，当属性是Ordinal Attribute时，当属性是Continuous Attribute时

4.3.4

是4.3.3的进一步，讲的是，具体怎么选择一个值作为判断条件的分界点呢？

4.3.5和4.3.6分别给出了一个算法和一个应用。

4.3.7

讲了一些使用decison tree来进行解决分类问题的经验之谈（但是我没用过，所以暂时不能充分体会到）

/********************************************************************************************/

4.4：Model Overfitting

先讲了什么是Model Overfitting。就是因为一个模型过于贴合train set而使得对于test set的预测效果不好。等价的一句话是使得training errors很低，而generalizaion errors升高。

4.4.1~4.4.3讲了造成Model Overfitting现象出现的几个可能原因：Due to Presence of Noise, Due to Lack of Representative Samples, Due to Multiple Comparison Procedure.

4.4.4

宣扬了一种观点：关于主要是什么原因会造成过于Model Overfitting还在debate；但是有一点是普遍认识到的，就是建立出的model的complexity（我认为意为模型精细程度）会对Model Overfitting有一定影响。

所以，这一节讨论的是我们应该怎样决定一个model发展到怎样的complexity能够最好地减少test error。主要思路是用train error和model complexity来预测对于test set的test error。具体介绍了以下几种预测算法：直接用train error作为test error的预测；将train error和model complexity结合；基于统计分布来修正train error来预测test error；将train set再次分割，一部分用于train，一部分用于预测test set的效果，这种方法叫validation set。

4.4.5

上一节讲的是利用预测test error来使得learning algorithm形成的model不会overfit the training data。这一节则是在Decision Tree形成过程中解决overfitting的问题。主要方法是修剪decision tree，有两个方向：prepruning和post-pruning

/********************************************************************************************/

4.5 Evaluating the Performance of a Classifier

评价建立出的model是否有较好的generalization error。介绍了几种评价方法：

4.5.1 Holdout Method 将打好标签的数据集分成train set & test set，用train set 建立model，然后用model预测test set，将预测的错误率作为对于以后未知数据的generalizaion error。

4.5.2 Random Subsampling 就是repeate holdout method several times.

4.5.3 Cross-Validation ：k-fold cross-validation将打好标签的数据集分成k份，每次选一份作为test set，剩下的作为train set ，运行k次，使得每份数据都成为一次test set。

4.5.4 Bootstrap：在决定train set的record时采用放回抽样。

/********************************************************************************************/