数据挖掘复习笔记(四、回归及分类)

1.分类的定义

分类是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,如:根据电子邮件的标题和内容预测该邮件是否为垃圾邮件。

分类和回归都有预测的功能,但是:分类预测的输出为离散的属性;回归预测的输出为连续属性值,例如:预测未来某银行客户会流失或不流失,这是分类任务,预测某商场未来一年的总营业额,这是回归任务。

2.分类的步骤

(1) 将数据集划分为训练集和测试集;

(2) 对训练集进行学习,构建分类模型;(这个模型可以是决策树或分类规则等形式)

(3) 用建好的分类模型对测试集进行分类;

(4) 评估该分类模型的分类准确度及其它性能;

(5) 使用分类准确度高的分类模型对类标号未知的未来样本数据进行分类。

3.分类及回归算法(各算法的基本思想、步骤及其优缺点)

分类算法:决策树的分类方法(ID3、C4.5)、贝叶斯分类方法、神经网络方法、逻辑回归。

回归算法:线性回归。

集成学习算法:装袋、提升。

4.1.朴素贝叶斯

优点:朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。对小规模的数据表现很好,能个处理多分类任务,适合增量式训练;对缺失数据不太敏感,算法也比较简单,常用于文本分类。

    缺点:需要计算先验概率;分类决策存在错误率;对输入数据的表达形式很敏感。

 

4.2.逻辑回归

优点: 实现简单;分类时计算量非常小,速度很快,存储资源低;便利的观测样本概率分数;

      缺点:当特征空间很大时,逻辑回归的性能不是很好;容易欠拟合,一般准确度不太高;不能很好地处理大量多类特征或变量;只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;对于非线性特征,需要进行转换;

 

4.3.线性回归

优点: 实现简单,计算简单;

缺点: 不能拟合非线性数据.

   

4.4.决策树

优点:计算简单,易于理解,可解释性强;比较适合处理有缺失属性的样本;能够处理不相关的特征;在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

缺点:容易发生过拟合(随机森林可以很大程度上减少过拟合)。

 

4.5 Adaoboost

优点:adaboost是一种有很高精度的分类器。可以使用各种方法构建子分类器,Adaboost算法提供的是框架。当使用简单分类器时,计算出的结果是可以理解的,并且弱分类器的构造极其简单。不容易发生overfitting。

缺点:对outlier比较敏感

 

4.6. 人工神经网络

优点:分类的准确度高;并行分布处理能力强,分布存储及学习能力强,对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系。

      缺点:神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值;不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;学习时间过长,甚至可能达不到学习的目的。

转载于:https://www.cnblogs.com/Wyuqing/p/7889523.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值