帕尔默企鹅数据集探索性分析

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

本文主要使用python对帕尔默企鹅数据集进行了EDA,欢迎交流讨论,共同进步。

前段时间老师布置了一份对帕尔默企鹅数据进行EDA的作业,结果网上一查基本全是什么“23个优秀的机器学习训练公共数据集”之类的文章,点进去也千篇一律让我无语,经过一段时间的摸鱼后也算是成功完成了作业,现写下来予以保存,因为我自己是个记忆力很差的人,所以重新捋一遍思路还是很有必要的。


本文主要分为数据预处理和数据可视化分析两节。

一、数据预处理

本次实验主要对阿德利企鹅属的三种企鹅进行探索性分析,由于三种企鹅同出一属,所以具有较高的相关性,本次实验将对相关数据集进行数据分析,以期能挖掘出数据背后隐藏的信息。

本次数据探索性分析将从数据预处理开始,并通过数据填充以消除数据集中ratio type data 的数据空值,而对于nominal type data——sex来说,则先后尝试了SVM算法和Knn算法对缺失值预测,最终选定Knn算法预测结果作为填充内容。 在获取到完整的,清洁的数据集后,开始对数据进行探索性分析。

首先我们导入本次实验过程中所需要的库

from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")
import missingno as msno
from scipy import stats
from sklearn.svm import SVC
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
%matplotlib inline
import seaborn as sns

1.读取数据集(Gdrive)

然后我们读取prnguins_size.csv文件,该步骤我所使用的方式需要先将数据文件上传至Gdrive中,在通过获取sharelink获取fileID,并将数据文件存入Colab memory。由于老师要求交ipynb的文件,所以这样做,其实pycharm读取本地文件会更简单一些,不用这个ID。

auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)
# Download a file based on its file ID.

file_id1 = '1GPQb6nHNkzJqyglvNikBy7L4Eys62YF1' # Check your own ID in GDrive

downloaded = drive.CreateFile({
   'id': file_id1})
# Save file in Colab memory
downloaded.GetContentFile('penguins_size.csv')

通过head函数我们可以看见已经成功读取到了数据文件,并且不难发现数据中有NaN,即空值。所以我们首先检查缺失值的数量以及分布情况。

df = pd.read_csv('penguins_size.csv')
df.head(5)

数据读取
不难看到第四行都是NaN,所以接下来开始统计各个数据字段的缺失值有多少。

2.四个ratio数据的预处理

print(df.isnull().sum
  • 9
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
背景描述 Palmer Penguins 数据集是近年来在数据科学和机器学习领域受到关注的一个数据集,经常被用作鸢尾花数据集的一个替代品。 数据集包含了对南极洲不同地区生活的企鹅种群的研究数据,主要用于数据探索和可视化,以及分类任务。 数据说明 penguins_size.csv :经过简化的原始数据 英文字段名 中文字段名 描述 species 种类 巴布亚企鹅、阿德利企鹅、金图企鹅) culmen_length_mm 喙长(毫米) 喙的长度(毫米) culmen_depth_mm 喙深(毫米) 喙的深度(毫米) flipper_length_mm 鳍状肢长度(毫米) 鳍状肢的长度(毫米) body_mass_g 体重(克) 体重(克) island 岛屿名称 梦想岛、托尔格森岛、比斯科岛 sex 性别 企鹅的性别 penguins_lter.csv :原始数据(3种企鹅的综合数据) 问题描述 种类分布:不同企鹅种类的分布情况如何?它们在不同岛屿上的分布有何差异? 身体测量特征的关系:企鹅的喙长、喙深、鳍状肢长度和体重之间是否存在显著的相关关系? 种类特征差异:不同种类的企鹅在体重、喙长、喙深和鳍状肢长度上有何差异? 性别差异:在体重和身体测量特征上,雄性企鹅和雌性企鹅之间是否存在显著差异? 岛屿影响:不同岛屿上的企鹅在身体测量特征上有无显著差异? 环境因素的影响:企鹅的物理特征是否与它们所在的地理位置(不同岛屿)有关? 数据可视化:如何通过散点图、直方图或箱线图等方式有效地可视化这些数据? 机器学习应用:可以使用哪些机器学习模型(如逻辑回归、决策树、随机森林等)来预测企鹅的种类或性别? 聚类分析:是否可以通过无监督学习方法(如 K-means 或层次聚类)发现数据中的模式或群组?
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三度先生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值