数据库内容丰富,蕴藏大量的信息,可以用来作出职能的商务决策。分类和预测是两种数据分析形式,可以用来提取描述重要数据类的模型和预测未来的数据趋势。
数据分类(data classfication)是一个两步过程。
第一步,建立一个模型,描述预定的数据类集或概念集。通过分析由属性描述的数据元组来构造模型。假定每个元组属于一个预定义的类,由一个称作类标号属性(class label atrribute)的属性确定。对于分类,数组元组也称作样本、实例或对象。为模型建立而被分析的数据元组形成训练数据集合。训练数据集中的单个元组称为训练样本,并随机地由样本群选取。由于提供了每个训练样本的类标号,该步也称为 有指导/监督的学习 (即模型的学习在被告知每个训练样本属于哪个类的“指导”下进行)。它不同于无指导的学习,那里每个训练样本的类标号是未知的,要学习的类集合或数量也可能事先不知道。
第二步,使用模型进行分类。首先评估模型的预测准确率。如果模型的准确率根据训练数据集评估,评估的结果可能是乐观的。因此,我们需要选择独立于训练集的测试样本集去评估模型的准确率。如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。
数据分类(data classfication)是一个两步过程。
第一步,建立一个模型,描述预定的数据类集或概念集。通过分析由属性描述的数据元组来构造模型。假定每个元组属于一个预定义的类,由一个称作类标号属性(class label atrribute)的属性确定。对于分类,数组元组也称作样本、实例或对象。为模型建立而被分析的数据元组形成训练数据集合。训练数据集中的单个元组称为训练样本,并随机地由样本群选取。由于提供了每个训练样本的类标号,该步也称为 有指导/监督的学习 (即模型的学习在被告知每个训练样本属于哪个类的“指导”下进行)。它不同于无指导的学习,那里每个训练样本的类标号是未知的,要学习的类集合或数量也可能事先不知道。
第二步,使用模型进行分类。首先评估模型的预测准确率。如果模型的准确率根据训练数据集评估,评估的结果可能是乐观的。因此,我们需要选择独立于训练集的测试样本集去评估模型的准确率。如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。