【学习笔记】《数据挖掘:理论与算法》CH3 从贝叶斯到决策树

分类问题

  1. 分类是一种有监督的学习
  2. 贝叶斯定理:头痛和流感的关系

朴素贝叶斯分类

  1. 为何朴素?
    需要假设条件独立
  2. 何为条件独立?
    • 肺癌和性别的关系,不能简单说男性得肺癌的概率大于女性,需要考虑得肺癌的条件:抽烟,
      在抽烟的情况下,得肺癌的概率大于不抽烟的情况。
    • 抛硬币问题,一枚正常硬币,一枚双面相同的硬币,抛硬币概率不同。
  3. 独立不等于不相关
  4. 避免出现概率为0?
    拉普拉斯平滑:样本加1
  5. 应用
    文本推荐:统计感兴趣文本中单词出现的概率,当新出现一个文本时,通过计算文本中单词出现的概率,来推测对文本感兴趣的概率。

决策树

  1. 奥卡姆的剃刀:相同效果,选简单的模型
  2. 决策树的选取?
决策树算法

ID3 (Iterative Dichotomizer 3)
迭代划分,确定属性节点,确定停止条件
计算熵值,熵值最大为1,越大越表示不确定
计算信息增益,信息增益越大越好,越能区分 -> 确定属性

剪枝 Pruning
决策树太长:过拟合; 决策树太短:无法分类复杂数据集

软件:
Naive Bayes algorithm for learning to classify text
http://www.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值