数据分析实例小试

该博客通过一个实例展示了如何使用Python进行数据分析,包括数据导入、清洗、分析和可视化。作者首先介绍了一个保护程度统计和目击次数的数据集,然后进行了缺失值和重复值的处理。接着,通过描述性分析和卡方检验确定了濒临灭绝的物种。此外,还展示了如何通过数据透视表和多表连接追踪山羊的目击情况,最后强调了数据可视化在解释结果中的作用。
摘要由CSDN通过智能技术生成

数据分析实例测试

案例背景:美国国家公园给了两个数据表,分别是各个物种的保护程度统计和在各公园目击到的次数,作为数据分析师,需要帮助他们从杂乱繁多的数据中找出濒临灭种的物种,以及在各公园目击到特定物种的次数。

准备数据

1.开局先导入python数据分析模块三剑客加上一个后面要用到的卡方检验:

from matplotlib import pyplot as plt
import numpy as np
import pandas as pd
from scipy.stats import chi2_contingency

用read_csv()方法导入数据源,打印前几行观察数据结构:

####用panads库读取csv文件获得数据
species = pd.read_csv('species_info.csv')
pd.set_option('display.max_columns', None)    #在打印数据表时列显示完全,
# print (species.head())                      #打印前几行观察,了解表的结构

在这里插入图片描述
可以看到数据列有category, scientific_name, common_name, conservation_status,其中conservation_status有空值。

数据清洗

1.缺失值的处理:

在这里,为了对数据源有更进一步的了解,先统计以下几个信息:物种数、物种名称、保护状态的名称。

####统计物种数,nunique可以去重,返回计数值
species_count = species.scientific_name.nunique()
print(species_count)

####统计物种和保护状态的名称,unique返回去重后的数组或列表
species_type = species.category.unique()
conservation_statuses = species.conservation_status.unique()
print(conservation_statuses)
print(species_type)

再对每一种保护状态下的物种数目进行统计,这里要注意使用nunique方法去重计数,刚开始我认为scientific_name具有唯一性,所以用了count方法对scientific_name计数,但在进入到数据源中检查的时候发现这个值并不唯一(这里猜想有两种情况,从网上找的数据源没有标准数据库好看即没有设置主键,或者真实数据就是这样,btw:我也想不通为什么学名一样的物种有不同的俗名)。

####对每一种保护状态下的物种进行计数,注意使用nunique方法去重计数,
####起初认为scientific_name具有唯一性用了count方法计数,但检查数据的时候发现其并不唯一
conservation_counts = species.groupby('conservation_status').scientific_name.nunique().reset_index()
print(conservation_counts)
|  conservation_status     scientific_name
0      Endangered             	15
1      In Recovery              4
2      Species of Concern       151
3      Threatened               10

发现conservation_status为空的值不会被gr

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值