【GreedyAI作业2】第四周课程心得

决策树与随机森林

决策树是一个类似于流程图的树结构(类似二叉树),支持非线性运算。

一、一种决策树示例

如何判断如何决策?

方法之一:信息熵的方法

条件熵:在固定条件下,信息的不确定程度

信息熵:信息的不确定程度

信息增益:信息熵的变化量

信息熵示例:抛硬币

如何做决策?信息熵、条件熵、信息增益的关系。

例如预测是否打高尔夫的例子,

先计算各条件与是否打高尔夫之间的相关性,对影响决策的因素的关系进行简单可视化。

然后计算各类因素与是否打高尔夫球之间的信息熵。

然后通过计算在各条件下的其他因素信息熵,找出条件信息熵最大的选项作为该条件下的正确选项。

直到划分完成,形成一个完整的决策树。

决策树的缺点之一就是过拟合问题,在上述例子中,所有的数据皆有用,从建模样例数据看,分类十分准确,却往往与现实有差别,因此容易产生过拟合问题,变成为了答题而答题。

从而也容易因为样例数据的些许变化,导致整棵树的巨大变化。且不适用于数据类型分布不均匀的情况。

二、随机森林

随机森林是一种集成学习方法。用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。

随机森林是一个最近比较火的算法,它有很多的优点:

  • 在数据集上表现良好,两个随机性(数据采样随机和投票随机)的引入,使得随机森林不容易陷入过拟合,具有很好的抗噪声能力
  • 它能够处理很高维度(feature很多)的数据,并且不用做特征选择,对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化
  • 可生成一个Proximities=(pij)矩阵,用于度量样本之间的相似性: pij=aij/N, aij表示样本i和j出现在随机森林中同一个叶子结点的次数,N随机森林中树的颗数
  • 在创建随机森林的时候,对generlization error使用的是无偏估计
  • 训练速度快,可以得到变量重要性排序(两种:基于OOB误分率的增加量和基于分裂时的GINI下降量
  • 在训练过程中,能够检测到feature间的互相影响
  • 容易做成并行化方法
  • 实现比较简单

随机森林与决策树差别不大,多了一个多树构建和投票的过程。

多树构建:随机森林的每一棵决策树之间是没有关联的;每一棵树的构建都是按照决策树构建的方式进行的。

投票过程:加权平均等。

K-means:

k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,不断重复直到所有的点都作为中心点完成过计算。

K-Means聚类是一种常用于将数据集自动划分为K个组的方法,它属于无监督学习算法。

业务用途

这是一种通用算法,可用于任何类型的分组。部分使用案例如下:

  • 行为细分:按购买历史记录细分,按应用程序、网站或者购买平台上的活动细分。
  • 库存分类:按照销售活动分组存货(准备库存)。
  • 传感器测量:检测运动传感器中的活动类型,并分组图像。
  • 检测机器人或异常:从机器人中分离出有效地活动组。

k - means聚类算法:

  • 步骤1:选择集群的数量K。
  • 步骤2:随机选择K个点,作为质心。(不一定要从你的数据集中选择)
  • 步骤3:将每个数据点分配到-> 构成K簇的最近的质心。
  • 步骤4:计算并重新放置每个集群的新质心。
  • 步骤5:将每个数据点重新分配到最近的质心。如果有任何重置发生,转到步骤4,否则转到FIN。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值