分类问题

最新推荐文章于 2019-12-13 09:44:30 发布

liucheng17

最新推荐文章于 2019-12-13 09:44:30 发布

阅读量1k

点赞数

分类专栏： DM

本文链接：https://blog.csdn.net/liucheng17/article/details/8502261

版权

4 篇文章 0 订阅

订阅专栏

分类问题的预处理主要包含三个步骤：

1.数据清洗，这一步主要解决噪声和数据遗失的问题

2.相关分析（属性选择）：由于数据集中的许多属性与数据挖掘的任务本身可能是无关的，所以这里要去除那些无关的属性和一些冗余的属性

3.数据转换：某些分类方法对于属性的类别有所要求（例如需要必须是离散值），那么就必须对数据进行相应转换，例如离散化等等。

如果我们拥有大量关于在外面的领域是什么造成样例相似的知识，基于实例的方法也许就是合适的选择。如果我们又有概率依赖的知识，图模型则比较合适。如果我们拥有每个类别要求的先决条件的知识，例如if...then...，规则的表示也许是最好的选择。

一种理解过拟合的方式是将泛化误差(generalization error)分解为偏置(bias)和方差(variance),偏置度量了学习期倾向于一直学习相同错误的程度。方差则度量了学习期倾向于忽略真是信号、学习随机事物的程度。利用朝板子扔飞镖作为类比的例子：

一个线性学习器有较高的偏置，因为当两个类别的交界不是超平面的时候，这个学习器就无法进行归纳。决策树就不会有这个问题，因为它可以表示任意的布尔函数，但在另外一个方面，决策树会面临高方差的问题：在同一现象所产生的不同训练数据上学习的决策树往往差异巨大，而实际上它们应当是相同的。

避免过拟合的方法：一个是交叉验证，另外一个常用的方法是对评价函数增加一个正则项(regularization term)，这样做可以惩罚那些包含更多结构的分类器，偏向更小的分类器，从而降低过拟合的可能性。

特征选择：特征选择往往是困难的，原因在于它是领域相关的(domain-specific）的，而学习器则很大程度上是通用的。现在经常采用的一种方式是先自动产生大量的候选特征，然后根据它们与分类类别的信息增益等方法来选取最好的特征。

学习器可以分为两类：一类的表示是大小不变的，比如线性分类器；另一类的表示会随着数据而增长，比如决策树（后者有时候也被称为非参数学习器（nonparametric learners))

相同条件下，简单的往往是好的，这意味着应当先选择简单假设，这是因为简单本身就是一个优点，而不是因为所假设的与准确率有什么联系。

而相关性也并不意味着因果，但相关性是因果关系的标志，我们可以将其作为进一步考察的指南（例如仕途理解因果链可能是什么样）

关注