主要是整理自己在数据挖掘课程上所做的一些笔记。
更多内容可以访问我的个人博客。
分类:基本概念(basic-classification)
- 基本概念
(1)分类定义:
**目标:**以前未知的对象应该尽可能准确地被分配一个类。
**评估:**使用测试集来确定模型的性能。不同的评估方法包括准确性、召回性、精确性、AUC等。通常,给定的数据集分为训练集和测试集,其中训练集用于建立模型,测试集用于验证模型。
(2)分类任务例子
① 比如预测肿瘤细胞良恶性
② 将信用卡交易归类为合法或欺诈
③ 营销经理需要进行数据分析,以帮助猜测具有给定配置文件的客户是否会购买一台新计算机(类别为购买/不购买)。
④ 银行贷款官员需要对她的数据进行分析,以了解哪种贷款申请对她的银行是有风险的(课程有风险/没有风险)
⑤ 将新闻故事归类为金融、天气、娱乐、体育等。
(3)一般分类方法:通常分为两步:学习模型(归纳),应用模型(演绎)
监督学习方法:决策树、朴素贝叶斯、基于规则的方法、神经网络、支持向量机、懒惰学习(K近邻)、集成方法
- 基础分类技术
(1)决策树
结构:
①内部节点:对属性的测试
②分支:表示测试的结果
③叶节点:分类标签优势:
① 决策树的构造不需要领域知识或参数设置,适用于探索性知识发现
② 决策树可以处理多维数据。
③ 决策树的表示是直观的。
④ 决策树可以很容易地转换成分类规则决策树的构建:
① 属性选择方法:如何为树节点选择属性
② 剪枝:大型的决策树可能过度拟合,许多树枝反映噪声或离群点,修剪树是为了删除这些分支,以提高对未见数据的分类精度。决策树算法(都采用贪婪策略):
① ID3(信息增益)
② C4.5(信息增益率)
③ CART(GINI指数)
数据分割方法:(对属性的类别不同分割不同)(还可分割成二路或者多路)
信息熵与信息增益:(ID3)
信息增益率:(C4.5)
**GINI指数:**GINI反映了从数据集中随机抽取两个样本,其类别标记不一致的概率,因此,Gini越小,则数据集的纯度越高。
预剪枝(早停规则):
① 在算法成为一棵完整的树之前停止它。
② 节点的典型停止条件:(1.如果所有实例都属于同一个类,则停止;2.如果所有属性值都是相同的,则停止)
③ 更严格的停止条件:(1.如果实例数小于用户指定的阈值,则停止。2.如果实例的类分布独立于可用特性(例如使用卡方测试),则停止。3.如果扩展当前节点不改善杂质度量(GINI或信息增益),则停止-贪婪)
后剪枝:
① 首先构建一棵完整的树
② 以自下而上的方式修剪决策树的节点。
③ 如果裁剪后泛化误差有所改善,则将子树替换为叶节点。
④ 叶节点的类标签是从子树中的大多数实例中确定的。
缺失值处理:(《机器学习》周志华 P87)
① 如何在属性值缺失的情况下进行划分属性的选择(根据没有缺失的值进行划分,信息增益Gain乘以一个无缺失样本比例)
② 给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分(将属性值a缺失的样本分入每一个a的分支中,权值调整为w*比例,开始阶段,各样本权值初始化为1)
(2)朴素贝叶斯
概念:贝叶斯分类方法是一种以计算出的事情发生的概率大小为分类依据的分类方法。而朴素贝叶斯中的**朴素(naive)**一词的来源就是假设各特征之间相互独立。这一假设可以使得朴素贝叶斯算法变得简单,但有时会牺牲一定的分类准确率。
**先验概率:**是指根据以往经验和分析得到的概率.如全概率公式。
条件概率:在某条件下事件发生的概率。
**后验概率:**事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小。后验概率是条件概率的一种。贝叶斯公式:
- 分类评价
(1)
TP:正例分对
TN:反例分对
FP:反例被分错成正例
FN:正例被分错成反例
混淆矩阵 | yes | no | Total |
---|---|---|---|
yes | TP | FN | P |
no | FP | TN | N |
Total | P_pred | N_pred | P+N |
名称 | 英文名 | 公式 |
---|---|---|
准确率、识别率 | accuracy, recognition rate | TP + TN/P + N |
错误率 | error rate, misclassification rate | FP + FN/P + N |
召回率(所有P的有多少召回了) | sensitivity,true positive rate,recall | TP/P |
特异性 | specificity,teue negative rate | TN/N |
精确性 | precision | TP/TP + FP |
精确度与召回率的调和平均数 | F,F-score | (2* precision *recall)/(precision + recall) |
(2)交叉验证
(3)留一法