学习笔记——Kaggle_Digit Recognizer (Random Forest算法 Python实现)

本文是个人学习笔记,该篇主要学习随机森林算法概念,并应用sklearn.ensemble.RandomForestClassifier算法包解决Kaggle入门级Digit Recognizer。

随机森林概述

随机森林就是用随机方式建立一个决策树森林,随机森林的决策树之间相互独立。因此随机森林可以简单理解为基于决策树算法的一种拓展与改进,主要应用于回归与分类。它也是一种数据降维手段,用于处理缺失值、异常值以及其他数据探索中的重要步骤。

其在分类问题上的基本思想是通过训练样本建立起随机森林,每当新样本进入时,让森林中每颗决策树都对该样本进行分类判断,最终通过投票方式确定其最终类别。

决策树

决策树顾名思义是一种树结构,其每个非叶节点表示一个基于特征属性的测试,每个分支代表该特征属性在某个值域上的输出,而每个叶节点存放一个类别。

决策树进行分类决策的过程就是从根节点开始,测试待分类项中对应该节点的特征属性,然后按照其值选择输出分支,到达新节点重复上述判断步骤,直到到达叶子节点,该叶节点类别即为分类判断结果。

随机森林分类过程

  1. 假设原始训练集共有N个样本,利用重复自抽样有放回地随机抽取出k个新的自助样本集(每个样本集中也有N个样本,由于是有放回随机抽取,因此可能会有重复样本,从而避免过拟合),由此构建k棵分类树(二叉树)ÿ
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值