数据挖掘常用算法
- 分类算法
- 决策树
- ID3
- C4.5
- 聚类
- K-mean算法
- DBSCAN
- 回归
- 线性回归
- 多项式回归
- 关联规则
- 时间序列分析
- 文本挖掘
- Web挖掘
数据挖掘流程
- 数据清理(消除噪声和不一致的数据)
- 数据集成(多中数据源可以组合在一起)
- 数据选择(从数据库中提取与分析任务相关的数据)
- 数据变换(数据变换或统一成适合挖掘的形式;如通过汇总或聚集操作)
- 数据挖掘(基本步骤,使用智能方法提取数据模式)
- 模式评估(根据某种有趣度量,识别提供知识真正有趣的模式)
- 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
分类问题
数据被分成两部分,其中training set被用来生成模型,剩下的数据作为test set用来评价模型。
各种分类算法的优缺点
决策树
一种启发式算法,核心是在决策树各个节点上应用信息增益等准则来选取特征,进而递归地构造决策树。
优点:
1. 计算复杂度不高,易于理解和解释,可以理解决策树所表达的意义;
2. 数据预处理阶段比较