一、特征与分类
特征作用
- 数据库通常存放大量的细节数据。然而,用户通常希望以简洁的描述形式观察汇总的数据集
- 提供一类数据的概貌,或将它与对比类相区别
- 方便、灵活地以不同的粒度和从不同的角度描述数据集
概念描述方法
- 数据泛化
- 解析特征
- 挖掘类比较
数据泛化
数据泛化是一个过程,它将大的、任务相关的数据集从较低的概念层抽象到较高的概念层解析特征
– 通过属性相关性分析,过滤掉统计不相关或弱相关的属性,保留与挖掘任务最相关的属性
– 数值型相关性
– 非数值型相关性• 经验判断
挖掘类比较
– 某些应用可能对单个类(或概念)的描述或特征化不感兴趣
– 希望挖掘一种描述,它将一个类(或概念)与其它可比较的类(或概念)相区分
– 类(或概念)区分或比较挖掘将目标类与对比类相区分的描述
– 比较对象:可比较类(或概念)
特征的关键作用——分类
- 已知分类特征,对样本进行归类
- 已知样本分类,抽取类别特征
分类:有监督学习、无监督学习