基于企鹅数据集的决策树实战

最新推荐文章于 2023-07-16 10:00:00 发布

隽隽坐飞机

最新推荐文章于 2023-07-16 10:00:00 发布

阅读量4.3k

点赞数 7

分类专栏：笔记文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/bes1290/article/details/121444924

版权

基于企鹅数据集的决策树实战

实践要求：导入基础的函数库包括：numpy（Python进行科学计算的基础软件包），pandas（pandas是一种快速，强大，灵活且易于使用的开源数据分析和处理工具），matplotlib和seaborn绘图。

数据集下载地址：
https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/6tree/penguins_raw.csv

实践步骤：

Step1:库函数导入

import numpy as np
import pandas as pd
import matplotlib as plt
import seaborn as sns

Step2:数据读取/载入

data = pd.read_csv(open(r'D:\算法作业\penguins_raw.csv'))

Step3:数据信息简单查看

>>>print(data.info())

微信图片_20211118131753.png

data = data.fillna(-1)# 将缺失值补全
## 利用value_counts函数查看每个类别数量
print(pd.Series(data['Species']).value_counts())

微信图片_20211118131914.png

Step4:可视化描述

仅从数据集中选择了几个特征

data = data[['Species','Culmen Length (mm)','Culmen Depth (mm)',
            'Flipper Length (mm)','Body Mass (g)']]
sns.pairplot(data=data, diag_kind='hist', hue=

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

隽隽坐飞机

关注关注

7
点赞
踩
46

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

A.机器学习入门算法（五）：基于企鹅数据集的决策树分类预测

丨汀、的博客

03-23

1545

具有很好的解释性，模型可以生成可以理解的规则。可以发现特征的重要程度。模型的计算复杂度较低。模型容易过拟合，需要采用减枝技术处理。不能很好利用连续型特征。预测能力有限，无法达到其他强监督模型效果。方差较高，数据分布的轻微改变很容易造成树结构完全不同。参考链接：https://tianchi.aliyun.com/course/278/3422本人最近打算整合ML、DRL、NLP等相关领域的体系化项目课程，方便入门同学快速掌握相关知识。

机器学习算法 —— 基于penguins_raw数据集的决策树

最新发布

ZShiJ的博客

07-02

1 条评论您还未登录，请先登录后发表或查看评论

利用决策树进行企鹅分类

qq_46006468的博客

07-19

1968

数据集： 数据集获取，百度网盘：复制这段内容后打开百度网盘手机App，操作更方便哦链接: 网盘地址 https://pan.baidu.com/s/1i9PAcOQ9g15qtMyiCvl3lQ 提取码:6z30 上代码： import matplotlib.pyplot as plt import pandas as pd from sklearn.tree import DecisionTreeClassifier import seaborn as sns impo.

机器学习算法（五）：基于企鹅数据集的决策树分类预测

qq_43416206的博客

03-26

1916

决策树是一种常见的分类模型，在金融风控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分，这种思想是人类处理问题时的本能方法。例如在婚恋市场中，女方通常会先询问男方是否有房产，如果有房产再了解是否有车产，如果有车产再看是否有稳定工作……最后得出是否要深入了解的判断。由于决策树模型中自变量与因变量的非线性关系以及决策树简单的计算方法，使得它成为集成学习中最为广泛使用的基模型。梯度提升树(GBDT)，XGBoost以及LightGBM等先进的集成模型。

基于决策树的企鹅分类（python）

m0_53036023的博客

12-17

3087

样本总数：3447个特征变量（所在岛屿，嘴巴长度，嘴巴深度，脚蹼长度，身体体积，性别以及年龄）一个目标分类变量（三种企鹅类别：Adélie, Chinstrap, Gentoo）部分样本含有缺失值 NA。

基于企鹅数据集的决策树实战.docx

03-26

### 基于企鹅数据集的决策树实战 #### 实践目标与背景介绍本文档旨在通过一个具体的案例——企鹅数据集上的决策树应用，帮助读者理解并掌握决策树这一经典机器学习方法的基本原理及其实践过程。决策树是一种监督...

监督学习包括线性模型、决策树模型、贝叶斯模型、支持向量机

01-09

监督学习包括线性模型、决策树模型、贝叶斯模型、支持向量机监督学习是机器学习领域中的一种主要学习方法，主要关注于从标签数据中学习，并且能够对新的数据进行预测。监督学习中有多种模型，包括线性模型、决策树...

机器学习算法：基于企鹅数据集的决策树分类预测

supeerzdj的博客

07-16

172

实验-手写基于决策树的企鹅分类(python)

weixin_53056212的博客

06-30

3286

实验-手写基于决策树的企鹅分类实验原理实验数据实验准备实验要求实验过程数据保存代码展示调包实现处理连续以及离散值实验结果调包实现手写实验原理 决策树的核心思想是基于树结构对数据进行划分，这种思想是人类处理问题时的本能方法。优点： 1.具有很好的解释性，模型可以生成可以理解的规则。 2.可以发现特征的重要程度。 3.模型的计算复杂度较低。缺点： 1.模型容易过拟合，需要采用剪枝技术处理。 2.不能很好利用连续型特征。 3.方差较高，数据分布的轻微改变很容易造成树结构完全不同。实验数据企鹅数据，该数

penguin-datalayer-collect:企鹅数据层收集和处理生态模型raf-suite criado pela DP6 para garantir a qualidade dos dados

03-05

企鹅数据层收集企鹅数据层收集和处理模块化DP6 Para garantir a qualidade dos dados（）no projetos de engenharia de dadas Implementados no clientes da DP6，atravésde Monitoraments e pipes automatizada。 Ecossistema筏套件设置企鹅数据层收集 1.实用要求书 1.1 GCP产品云储存云功能大查询服务帐号 1.2本地环境 Pacotes拉链，拉开卷曲 com（存储对象管理，云功能管理，BigQuery管理和服务帐户用户）变量 InstalarØ Observação：UtilizandoöAMBIENTE没有淖énecessárioFAZER OS 1，2，4 E 5 1.3路德维希·杰拉多·德图式去做 2.

Palmer Archipelago (Antarctica) penguin data-数据集

03-22

帕尔默群岛（南极洲）企鹅数据。数据由克里斯汀·高曼博士和长期生态研究网络成员南极洲帕尔默站收集并提供。 penguins_lter.csv penguins_size.csv

penguins_raw.csv

08-12

机器学习决策树企鹅数据集 决策树是一种常见的分类模型，在金融分控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分，这种思想是人类处理问题时的本能方法。例如在婚恋市场中，女方通常会先看男方是否有房产，如果有房产再看是否有车产，如果有车产再看是否有稳定工作……最后得出是否要深入了解的判断。

palmerpenguins:出色的介绍性数据集，可进行数据探索和可视化（虹膜替代）

03-18

棕企鹅 Palmerpenguins的目标是为iris的替代提供一个用于数据探索和可视化的强大数据集。安装您可以使用以下方法从安装Palmerpenguins的发行版本： install.packages( " palmerpenguins " ) 要从安装开发版本，请使用： # install.packages("remotes") remotes :: install_github( " allisonhorst/palmerpenguins " ) 关于数据数据由和成员收集并提供。 palmerpenguins软件包包含两个数据集。 library( palmerpenguins ) data( package = ' palmerpenguins ' ) 一种叫做“ penguins ，是原始数据的简化版本。有关更多信息，请参见?penguins 。 head(

数据集分析报告.docx

07-13

文档第一部分为Bagging与boosting之间的区别，第二部分是为对五个数据集进行相关性分析，缺失性分析，和噪声数据发现，第三部分是使用随机森林，支持向量机等八个算法对五个数据集进行分类，对比八个算法对五个数据集的分类精度。代码部分在此处：https://download.csdn.net/download/qq_30814185/11338531

python实现机器学习之决策树