数据挖掘
监督学习(分类)
无监督学习(聚类)
prediction problems:Classification vs. Numeric Prediction
测试集的数据,与训练集应该严格分开。 假如考试的题之前作业都见过,就无法检测是否真正掌握
Decision Tree Induction(决策树归纳法)
直观,容易理解
信息增益,熵
熵高,高不确定性
熵低,低不确定性
连续值:<20, 20~30, 30 ~40, >40
Gain Ratio
Gini Index Used in CART
Overfitting 与 Tree Pruning
有一些branches反应的是anomalies或者noise或者outliers
黑线比绿线好
对overfitting的两种approaches
Prepruning:
threshold难选
Postpruning:
用另一组数据来剪枝(用的更多)
决策树的优点:
- 学习速度快
- 可以转化成简单易理解的分类条件
- 容易用SQL实现
- 可接受的分类准确率
Bayes Classification Methods
朴素贝叶斯分类器的一个示例:
朴素贝叶斯的优点:
容易实现,结果优秀
缺点:变量往往不是独立的
可以用贝叶斯 Bayesian Belief Networks来部分解决上述问题