- 数据挖掘策略可以广义地分为有指导和无指导两类;
- 有指导学习通过使用输入属性来预测输出属性值的方式建模,有许多有指导数据挖掘算法仅允许单个输出属性;
由于其输出属性的结果依赖于一个或多个输入属性值,故输出属性又称为因变量; 所有用于建模的属性都是自变量 - 有指导学习策略可以按照输出属性是离散的还是分类的,以及设计的模型是用来确定当前条件还是预测未来结果,进一步分类
- 【分类】,可能是所有数据挖掘策略中最耗理解的,一般有三个特征:
(1)学习是有指导的
(2)因变量是分类的
(3)重点在于建立模型,将新的实例指派给一组定义明确的类中的一个
每个例子处理的都是当前的而不是未来行为 - 【估计】,目的在于确定一个未知输出属性的值;然而与分类模型不同的是,对于一个估计问题,其输出属性值(一个或多个)是数值的而不是分类的
- 【预测】,与分类模型和估计模型不同的是,预测模型的目的在于确定未来的输出结果而不是当前的行为; 预测模型的输出属性(一个或多个)可以使分类的或数值型的
- 规则准确度,是指在前面的前提条件下,输出属性正确的概率为多少;
规则覆盖率,是指在当前的实例中,复合这些前提条件的实例比例 - 【无指导聚类】,我们没有因变量来指导学习过程,相反,学习规程通过使用聚类质量度量将实例分为两个或更多个类,来建立知识结构; 无指导聚类策略的主要目的在于发现数据中的概念结构
作用在于:(1)确定能否在数据中发现概念形式的有意义的关系;(2)评估一个有指导学习模型的性能(3)确定有指导学习的最佳输入属性集合(4)侦测孤立点 - 【购物篮分析】,目的是找到零售产品之间有趣的关系
《数据挖掘》策略
最新推荐文章于 2023-12-27 17:59:48 发布