分类问题
- 分类是一种有监督的学习
- 贝叶斯定理:头痛和流感的关系
朴素贝叶斯分类
- 为何朴素?
需要假设条件独立 - 何为条件独立?
- 肺癌和性别的关系,不能简单说男性得肺癌的概率大于女性,需要考虑得肺癌的条件:抽烟,
在抽烟的情况下,得肺癌的概率大于不抽烟的情况。 - 抛硬币问题,一枚正常硬币,一枚双面相同的硬币,抛硬币概率不同。
- 肺癌和性别的关系,不能简单说男性得肺癌的概率大于女性,需要考虑得肺癌的条件:抽烟,
- 独立不等于不相关
- 避免出现概率为0?
拉普拉斯平滑:样本加1 - 应用
文本推荐:统计感兴趣文本中单词出现的概率,当新出现一个文本时,通过计算文本中单词出现的概率,来推测对文本感兴趣的概率。
决策树
- 奥卡姆的剃刀:相同效果,选简单的模型
- 决策树的选取?
决策树算法
ID3 (Iterative Dichotomizer 3)
迭代划分,确定属性节点,确定停止条件
计算熵值,熵值最大为1,越大越表示不确定
计算信息增益,信息增益越大越好,越能区分 -> 确定属性
剪枝 Pruning
决策树太长:过拟合; 决策树太短:无法分类复杂数据集
软件:
Naive Bayes algorithm for learning to classify text
http://www.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html