学习笔记——Kaggle_Digit Recognizer (Random Forest算法 Python实现）

最新推荐文章于 2020-06-20 22:08:14 发布

JayC糖爸

最新推荐文章于 2020-06-20 22:08:14 发布

阅读量1.2k

点赞数

分类专栏： python学习笔记文章标签： python学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jay39223887/article/details/65444182

版权

这篇博客介绍了如何使用Python的sklearn库中的RandomForestClassifier来解决Kaggle的Digit Recognizer问题。博主首先概述了随机森林的概念，解释了它是如何基于决策树进行分类的，接着详细描述了随机森林的分类过程，包括样本抽取、特征选择和决策树的构建。最后，博主提供了Python代码示例，展示了如何应用随机森林算法进行数字识别。

摘要由CSDN通过智能技术生成

本文是个人学习笔记，该篇主要学习随机森林算法概念，并应用sklearn.ensemble.RandomForestClassifier算法包解决Kaggle入门级Digit Recognizer。

随机森林概述
- 决策树
- 随机森林分类过程
Python 代码

随机森林概述

随机森林就是用随机方式建立一个决策树森林，随机森林的决策树之间相互独立。因此随机森林可以简单理解为基于决策树算法的一种拓展与改进，主要应用于回归与分类。它也是一种数据降维手段，用于处理缺失值、异常值以及其他数据探索中的重要步骤。

其在分类问题上的基本思想是通过训练样本建立起随机森林，每当新样本进入时，让森林中每颗决策树都对该样本进行分类判断，最终通过投票方式确定其最终类别。

决策树

决策树顾名思义是一种树结构，其每个非叶节点表示一个基于特征属性的测试，每个分支代表该特征属性在某个值域上的输出，而每个叶节点存放一个类别。

决策树进行分类决策的过程就是从根节点开始，测试待分类项中对应该节点的特征属性，然后按照其值选择输出分支，到达新节点重复上述判断步骤，直到到达叶子节点，该叶节点类别即为分类判断结果。

随机森林分类过程

假设原始训练集共有N个样本，利用重复自抽样有放回地随机抽取出k个新的自助样本集（每个样本集中也有N个样本，由于是有放回随机抽取，因此可能会有重复样本，从而避免过拟合），由此构建k棵分类树（二叉树）ÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。