《数据挖掘与大数据分析》课堂学习笔记-6 7 8 第四章 分类 决策树 KNN算法 朴素贝叶斯

本文是关于数据挖掘与大数据分析的课堂笔记,重点介绍了决策树、KNN和朴素贝叶斯三种经典分类方法。通过对高尔夫问题的案例分析,详细阐述了决策树的构建过程,包括属性选择度量如信息增益和Gini指标。接着,讲解了KNN算法的基本思想、计算步骤及优缺点,最后讨论了朴素贝叶斯分类的原理和优势。
摘要由CSDN通过智能技术生成

第四章 分类

1.分类基本概念

分类是一种数据分析形势,它提取刻画重要数据类的模型,这种模型叫分类器。
在这里插入图片描述

之后模型会进而预测分类的(离散的、无序的)类标号。
总而言之,分类属于 预测任务

2.预测任务

所以我们自然而然地引入了 什么是预测任务?
一般一个预测任务分成两个阶段

3.模型分类

生成模型

  • 希望从数据中心学习/还原出 原始的真实数据生成模型。
  • 常见的方法:学习数据的联合概率分布(一般会假设一下联合概率分布)
    eg:朴素贝叶斯方法、隐马尔可夫模型等

判别模型

  • 从数据中心学习到不同类概念的区别 从而进行分类
    就例如之前所说的例子——
    给一个数据集 有杂乱的蓝莓枣 香蕉 通过这个模型的学习和判别之后 将其分类。
    eg: KNN SVM ANN Decision Tree等

4.经典分类方法

4.1 决策树

p16

引入:高尔夫问题

小王是一家著名高尔夫俱乐部的经理。但是他被雇员数量问题搞得心情十分不好。某些天好像所有人都來玩高尔夫,以至于所有员工都忙的团团转还是应付不过来,而有些天不知道什么原因却一个人也不来,俱乐部为雇员数量浪费了不少资金。

在这里插入图片描述

小王的目的是通过下周天气预报寻找什么时候人们会打高尔夫,以适时调整雇员数量。因此首先他必须了解人们决定是否打球的原因。
在这里插入图片描述

在2周时间内我们得到以下记录:

天气状况有晴,云和雨;气温用华氏温度表示;相对湿度用百分比;还有有无风。当然还有顾客是不是在这些日子光顾俱乐部。最终他得到了14列5行的数据表格。

在这里插入图片描述
在这个问题中 决策树模型被建起来用于解决问题
在这里插入图片描述
决策树是一个有向无环图。
根据数据集 根据决策树一个一个环节的判断 最终找出来规律——得知啥时候有人打高尔夫 啥时候没人打

这就通过分类树给出了一个解决方案。 小王在晴天,潮湿的天气或者刮风的雨天解雇了大部分员工,因为这种天气不会有人打高尔夫。而其他的天气会有很多人打高尔夫,因此可以雇用一些临时员工来工作。
所以得到——

引入小结

决策树可以帮助我们把负责的数据转换成相对简单、直观的结构

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值