机器学习之聚类算法、随机森林

随机森林

决策树

基础

概念:从根节点一步步走到叶子节点(决策);
组成:根节点=第一个选择的节点;叶子节点=最终的决策结果;非叶子节点=中间过程;
训练:除叶子节点之外所有的特征节点,选择节点的过程以及构建树的过程;
测试:已知树的结构,输入数据,得到最终该数据要去哪个叶子节点;
如何选择特征:通过某种衡量标准,计算哪个特征作为根节点;衡量标准是熵;
熵值:表示随机变量的不确定性度量。公式如下:H(X)=-∑ pi* logpi, i=1,2,…n
概率是0-1之间的一个数,某类别概率越大,则logpi就越小,即给定数据中选择该类别对象,选中的概率越大。选不中的概率就越小(即熵值越小);
信息增益:表示特征X使得类Y的不确定性减少的程度。通过选取X作为节点,将所有数据分成两组,每组计算熵值,于初始熵值比较,若熵值减少值最大,则说明该特征X选取合适。
决策树方式:需要采用预训练的方式,即需要带标签的数据。
特征的衡量标准,除了熵值还有GINI系数。某类别概率越大,GINI系数越小。
在这里插入图片描述

特征值问题?

特征有离散和连续,离散特征包含离散情况、类别变量;对于连续值应该如何判断?

聚类算法

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值