分类简单来讲就是确定对象属于哪个预定义的目标类。分类问题是一个普遍存在的问题,有许多不同的应用,
例如:垃圾邮件过滤,给网站文章分类,根据核磁共振扫描的结果区分肿瘤是恶性的还是良性的,根据树叶的形状
给分类,如图1:
分类任务的输入数据是样本的集合,用元组(x, y)表示,其中x是属性(变量或特征)的集合,而y是一个特殊的属性,
表示样本属于哪个类别(也称分类属性或目标属性)。图2列出了一个数据集。属性(特征)值是离散的,但是也可以是连
续的。另外一个方面分类的目标属性值必须是离散的,这是区别分类与回归的关键特征。回归的y值即目标属性是连续的。
分类任务就是通过学习得到一个目标函数