分类(classification)任务就是通过学习获得一个目标函数(Target Function)f,将每个属性集x映射到一个预先定义好的类标号y。
分类任务的输入数据是记录的集合,每条记录也称为实例或者样例。用元组(X,y)表示,其中,X是属性集合,y是一个特殊的属性,指出样例的类标号。
分类技术是一种根据输入数据集建立分类模型的系统方法。分类技术一般是用 一种学习算法确定分类模型,该模型可以很好地拟合输入数据中类标号和属性集之间的联系。
学习算法得到的模型不仅要很好拟合输入数据,还要能够正确地预测未知样本的类标号。因此,训练算法的主要目标就是要建立具有很好的泛化能力模型,即建立能够准确地预测未知样本类标号的模型。
分类方法的实例包括:决策树分类法、基于规则的分类算法、神经网络、支持向量机、朴素贝叶斯分类方法等。
分类问题一般包括两个步骤:
1. 模型构建(归纳)
通过对训练集合的归纳,建立分类模型。
2. 预测应用(推论)
根据建立的分类模型,对测试集合进行测试。
决策树技术发现数据模式和规则的核心是归纳算法。
与决策树相关的重要算法:
CLS、ID3、C4.5、CART