决策树及随机森林（集成学习方法）预测泰坦尼克号生死

最新推荐文章于 2024-03-16 03:32:38 发布

moro_zhang

最新推荐文章于 2024-03-16 03:32:38 发布

阅读量1.1k

点赞数

分类专栏： AI

本文链接：https://blog.csdn.net/moro_zhang/article/details/86745860

版权

决策树概念

决策树是一种基本的分类与回归的方法，模型呈现属性结构，通常包括：特征选择，决策树的生成和决策树的修剪3个步骤。树可以看做是if-then的集合。
重点是决策树特征选择，特征的选择准则是信息增益或者信息增益比
信息增益的基本概念：表示得知特征X的信息而使得类Y的信息的不确定性减少的程度，通常用熵来表示随机变量不确定的程度。
决策树有ID3(信息熵) C4.5(信息增益) CART(基尼系数)三种算法，通常使用基尼系数算法，基尼系数小的作为最有特征。

随机森林

– 在决策树的基础上，构建每一棵树的流程是：

一次随机抽取一个样本（有可能抽到重复的样本，也可以理解为有放回的抽取数据，也叫boostrap抽样），重复N次，就得到了N个样本的训练集
从总数M个特征中随机抽取m个特征，m<<M
每棵树训练的样本是不同的，最后分类取决于多棵树投票表决最终的结果，也是弱分类器的特点。

案例

import pandas as pd
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier , export_graphviz
from sklearn.ensemble import RandomForestClassifier
#导入数据，查看数据的前10条及数据

最低0.47元/天解锁文章

moro_zhang

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
决策树及随机森林（集成学习方法）预测泰坦尼克号生死

决策树概念决策树是一种基本的分类与回归的方法，模型呈现属性结构，通常包括：特征选择，决策树的生成和决策树的修剪3个步骤。树可以看做是if-then的集合。重点是决策树特征选择，特征的选择准则是信息增益或者信息增益比信息增益的基本概念：表示得知特征X的信息而使得类Y的信息的不确定性减少的程度，通常用熵来表示随机变量不确定的程度。决策树有ID3(信息熵) C4.5(信息增益) CART(基尼...
复制链接

扫一扫