学习目标
- Knowledge Discovery 的框架
- 分类的评估方法
- 数据预处理的方法
课堂笔记
A Framework for Knowledge Discovery
概述:Data Mining是Knowledge Discovery一个更大的迭代过程的一部分。
KD的主要过程包括:
- 定义问题:识别你的KD项目的研究目标。
- 数据收集:包括数据清洗和预处理。
- 数据挖掘:建立适合的数据模型。
- 验证模型:涉及到一些统计分析(准确度计算)。
- 部署模型
- 监测模型:定期拿新数据对模型进行评估
数据预处理
- 数据聚合(Aggregation)
定义:是将两个或两个以上的属性或对象合并成一个属性或对象。
目的:1.减少数据量 2.改变数据的表示范围 例如城市的天气改为国家、州的天气 3. 更稳定
- 处理缺失数据(Missing values)
缺失原因:1.信息没有收集到 2.有些信息不适用于调查对象