数据挖掘的技术过程:
- 数据清理(消除噪音或不一致数据)
- 数据集成(多种数据源可以组合在一起)
- 数据选择(从数据库中提取与分析任务相关的数据)
- 数据变换(数据变换或统一成适合挖掘的形式;如,通过汇总或聚集操作)
- 数据挖掘(基本步骤,使用智能方法提取数据模式)
- 模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式)
- 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。
可以挖掘的数据类型:
关系数据库、数据仓库、事务数据库、空间数据库、时间序列数据库、文本数据库和多媒体数据库。
关系数据库:是表的集合,每个表都赋予一个唯一的名字。每个表包含一组 属性(列或字段),并通常存放大量 元组(记录或行)。关系中的每个元组代表一个被唯一关键字标识的对象,并被一组属性值描述。
数据仓库:通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造
事务数据库:由一个文件组成,其中每个记录代表一个事务。通常,一个事务包含一个唯一的事务标识号(trans_ID),和一个组成事务的项的列表(如,在商店购买的商品)
可以挖掘的模式类型:
概念/ 类描述:特征和区分
(1)数据特征化,一般地汇总所研究类(通常称为 目标类)的数据,或(2)数据区分,将目标类与一个或多个比较类(通常称为 对比类)进行比较。
挖掘频繁模式、关联和相关性
用于预测分析的分类与回归
聚类分析
离群点分析
使用的技术
面向的应用类型
商务智能、web搜索引擎
在挖掘中需要注意的东西
源数据特征方面:
1、监督还是非监督,即有无样本数据。
2、对象特征(属性)是什么产生的,为什么这么产生
3、属性是离散的还是连续的
4、混合类型属性。离散属性是标称还是数值。标称属性类型:二元、有序、无关。数值属性类型:区间、比例
5、特征维度和稀疏度
6、缺失值怎么处理
7、各维度尺度怎么处理
8、异常噪声怎么处理
9、超大数据集怎么办
数据间相似性和相异性的度量:
1、数据矩阵(对象-属性结构)、相异性矩阵(对象-对象结构)
2、标称属性的相似度、二元属性的相似度、数值属性的相似度、序数属性相似度、混合属性相似度
3、稀疏特征向量的余弦相似性
数据预处理方面(清洗、集承、归约、变换):
1、数据不准确怎么办?
2、数据不完整这么办?
3、数据格式不一致怎么办?
4、数据重复、冗余怎么办?
5、数据已过时怎么办?
6、数据噪声、离群点怎么办?
7、维度太高怎么办?(归约、小波变换、主成分分析、属性子集、)
数据结果方面:
1、数值结果还是类结果
2、如何判断结果的好坏()
3、结果能否反馈到模型中(后馈)
模型方面:
1、如何判断模型的好坏
2、如何用现有数据增强模型(交叉验证)
3、如何并用多个模型(随机森林)
数据挖掘算法
分类器与聚类算法不同。聚类算法是非监督算法,只是对一群输入对象进行分组,每组属于什么类别是不知道的。而分类器是在没有任何数据前就已经定好了拥有哪些类。分类器是监督算法。对一批已知所属分类的数据集进行统计训练。然后再对新来的数据进行判定属于哪个分类。
分类过程概述:首先有一批已知分类的数据集。对每个输入对象提取特征,根据输入对象的特征属性和输入对象的所属分类,计算分类与特征属性之间的概率关系,以此来实现样本的训练。当对新的输入对象进行预测所属分类时,提取新输入对象的特征,根据训练好的概率,判断输入对象属于每个分类的概率。
最后欢迎大家访问我的个人网站:1024s