数据挖掘(清华公开课)

本文介绍了数据挖掘中的几种关键算法,包括决策树、KNN、朴素贝叶斯、SVM、AdaBoost和Logistic回归。每种算法都有其独特优点,如决策树的易于理解,KNN的简单有效,朴素贝叶斯的数学基础,SVM的泛化性能,AdaBoost的分类精度,以及Logistic回归的计算成本低。同时,这些算法也存在各自的缺点,如过拟合、对噪声数据敏感和参数选择影响性能等。
摘要由CSDN通过智能技术生成

数据挖掘常用算法

  1. 分类算法
    • 决策树
    • ID3
    • C4.5
  2. 聚类
    • K-mean算法
    • DBSCAN
  3. 回归
    • 线性回归
    • 多项式回归
  4. 关联规则
  5. 时间序列分析
  6. 文本挖掘
  7. Web挖掘

数据挖掘流程

  1. 数据清理(消除噪声和不一致的数据)
  2. 数据集成(多中数据源可以组合在一起)
  3. 数据选择(从数据库中提取与分析任务相关的数据)
  4. 数据变换(数据变换或统一成适合挖掘的形式;如通过汇总或聚集操作)
  5. 数据挖掘(基本步骤,使用智能方法提取数据模式)
  6. 模式评估(根据某种有趣度量,识别提供知识真正有趣的模式)
  7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

分类问题

数据被分成两部分,其中training set被用来生成模型,剩下的数据作为test set用来评价模型。

各种分类算法的优缺点

决策树

一种启发式算法,核心是在决策树各个节点上应用信息增益等准则来选取特征,进而递归地构造决策树。

优点:
1. 计算复杂度不高,易于理解和解释,可以理解决策树所表达的意义;
2. 数据预处理阶段比较

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值