数据挖掘的类型定义

一、从数据分析(data analysis)讨论

预测问题(prediction problems)的两个主要类型是分类(classification)和数值预测(numeric prediction)。

 

这些问题都会涉及到训练数据集(training dataset)。从数据库的角度看,数据集中的每个元素称作训练元组(training tuple);而在机器学习中,这些元素则称为训练样本(training samples)。

 

每个元组都包含n元,纵向看,每一元都是一种属性(attribute)的取值。因此,每个训练元组也就成为了一个n维的属性向量(attribute vector)。将n维属性向量的某1维作为预测目标,预测问题的本质就是用其他维的特征来预测这个属性的取值。

 

每个属性的取值可能为3个类型中的一种。

1. 类别标签(categorical label):这些取值形成一个无序(unordered)的集合,例如,各种颜色,yes或no等等

2. 有序值变量(ordered-value variable):可以排序的一组取值,例如,高、中、低,婴儿、儿童、少年、青年、中年、老年,等等

3. 连续值函数(continuous-valued function):也就是取连续的实数值了。

当预测目标属性的取值为类别标签时,该预测问题就称作分类(classification),训练得到的模型称作分类机(classifier)。而当预测目标属性的取值为有序值变量或连续函数时,该预测问题就定义为数值预测(numeric pridiction),简称预测(prediction),训练得到的模型称作预测机(predictor)。由于回归分析(regression analysis)是最常用的数值预测方法,有时就把数值预测和回归分析的定义混淆了。

 

二、从机器学习(machine learning)讨论

1. 上面的分类(classification)预测问题从机器学习角度定义为监督式学习(supervised learning),这是因为在分类标签知道的情况下,进行分类的学习。

2. 而在分类标签不知道、不清楚或不需要时,对训练数据集进行的分类,称作非监督式学习(unsupervised learning),也就是聚类(clustering)。

3. 有时还会出现,参考某个或多个分类标签,根据其他属性对数据集进行分类的问题。这时称作半监管式学习(semi-supervised learning)

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值