数据分析与数据挖掘
1. 数据分析和数据挖掘的基本概念
- 数据挖掘: 从大量数据中挖掘隐含的未知对决策等关系,模式和趋势,并用这些知识和规则建立用于决策支持的模型(使用算法)
- 数据分析:适当的分析方法去对收集的大量数据,提取信息和形成结论,详细研究和概括过程
2. 数据挖掘的基本任务
- 分类与预测:对目标事物进行分类预测
- 聚类分析:根据数据本身结构特征对数据点进行分类的方法,按距离近远分类,使其类内差异小
- 关联规指:从数据中发现特征或数据之间的依赖关系
- 时间序列:基于事物发展的延续性和随机性预测发展
- 差错检验
- 智能推荐
3. 数据分析流程
- 目标定义
- 数据获取
- 网络数据
- 历史数据
- 实时数据
- 抽样方式
- 随机抽样,等距抽样,分层抽样,顺序抽样,分类抽样
- 数据探索
- 数据预处理
- 挖掘建模
- 模型评价