数据挖掘:从大量数据中抽取出(隐含的、有潜在用途的、未知的、人们可以理解的)有价值的信息和模式的过程。
步骤:1. 学习应用领域(应用的相关先验知识和目标)
2. 创建目标数据集:数据选择
3. 数据清理和预处理
4. 数据简化和变形
5. 选择数据挖掘功能
6. 选择数据挖掘算法
7. 数据挖掘:寻找有趣的模式
8. 模式评估和知识展示
9. 知识发现的使用
方法:1. 关联规则:购物篮分析,药品关联
2. 分类:将信用卡申请者按风险等级分为高,中,低。
3. 预测
4. 聚类:分组,组内对象相似,组间不同,划分依据为相似性度量
类标签是未知的,最大化内部类的相似性和最小化 阶级之间的相似性
无指导性学习