《数据挖掘概念与技术》学习笔记第7章(7/10)分类和预测

分类

第一步,建立一个模型,描述预定的数据类集或者概念集。

第二步,使用模型进行分类。

补充说明:

1 数据类集或者概念集还可以被称为样本、实例、对象。

2为建立模型而被分析的数据类集称为训练数据集。

3 这是一种有指导的学习,而在聚类中,使用的是无指导的学习。

对分类方法进行评估

可以采用的评估标准包括:预测的准确率、速度、强壮性、可伸缩性、可解释性。

  

判定树的可伸缩性

大部分判定树算法都把训练样本限制在了内存中,然而包含数以百万计样本的非常大的训练集是很普通的。因此,这一限制就制约了算法的可伸缩性。目前针对此问题的的改进算法是SLIQSPRINT,核心解决之道是预排序

 

贝叶斯分类

算法实现(以后单独写出)

 

其它分类方法

k-最邻近分类

基于案例的推理(case-based reasoning)

遗传算法

粗糙集方法

模糊集方法

 

预测

一般认为,如果预测结果是离散值,则应该叫做分类。

如果预测结果是连续值,则应该叫做预测。

预测的方法

线性回归:使用最小二乘法

多元回归

非线性回归

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值