分类问题

分类问题的预处理主要包含三个步骤:

1.数据清洗,这一步主要解决噪声和数据遗失的问题

2.相关分析(属性选择):由于数据集中的许多属性与数据挖掘的任务本身可能是无关的,所以这里要去除那些无关的属性和一些冗余的属性

3.数据转换:某些分类方法对于属性的类别有所要求(例如需要必须是离散值),那么就必须对数据进行相应转换,例如离散化等等。


如果我们拥有大量关于在外面的领域是什么造成样例相似的知识,基于实例的方法也许就是合适的选择。如果我们又有概率依赖的知识,图模型则比较合适。如果我们拥有每个类别要求的先决条件的知识,例如if...then...,规则的表示也许是最好的选择。

一种理解过拟合的方式是将泛化误差(generalization error)分解为偏置(bias)和方差(variance),偏置度量了学习期倾向于一直学习相同错误的程度。方差则度量了学习期倾向于忽略真是信号、学习随机事物的程度。利用朝板子扔飞镖作为类比的例子:


一个线性学习器有较高的偏置,因为当两个类别的交界不是超平面的时候,这个学习器就无法进行归纳。决策树就不会有这个问题,因为它可以表示任意的布尔函数,但在另外一个方面,决策树会面临高方差的问题:在同一现象所产生的不同训练数据上学习的决策树往往差异巨大,而实际上它们应当是相同的。


避免过拟合的方法:一个是交叉验证,另外一个常用的方法是对评价函数增加一个正则项(regularization term),这样做可以惩罚那些包含更多结构的分类器,偏向更小的分类器,从而降低过拟合的可能性。


特征选择:特征选择往往是困难的,原因在于它是领域相关的(domain-specific)的,而学习器则很大程度上是通用的。现在经常采用的一种方式是先自动产生大量的候选特征,然后根据它们与分类类别的信息增益等方法来选取最好的特征。

学习器可以分为两类:一类的表示是大小不变的,比如线性分类器;另一类的表示会随着数据而增长,比如决策树(后者有时候也被称为非参数学习器(nonparametric learners))


相同条件下,简单的往往是好的,这意味着应当先选择简单假设,这是因为简单本身就是一个优点,而不是因为所假设的与准确率有什么联系。


而相关性也并不意味着因果,但相关性是因果关系的标志,我们可以将其作为进一步考察的指南(例如仕途理解因果链可能是什么样)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值