Pandas-查看数据整体情况

一、获取要分析的数据
最近发现一个数据集搜索引擎,里面有很多数据集资源。界面设计小清新,看起来挺舒服的。通过关键词搜索,也能找到相关的数据集。如果找不到,下面也提供很多站点,可以扩大寻找范围。
https://www.5radar.com/ 专注于发现数据集的引擎

在这里插入图片描述

二、 查看数据整体情况
import pandas as pd
import os
#获取文件目录
print(os.path.abspath(‘meteorological-data.xlsx’)) #获取当前目录文件下的工作目录路径
df=pd.read_excel(‘/Users/Desktop/meteorological-data.xlsx’)
#先查看 -维度层面
#1、 先查看-维度层面
df.head() #查看DataFrame 对象的前n行
df.shape #查看 行数和列数
df.info() #查看 索引、数据类型

2、查看单个维度层面数据是否正常

print(df[‘Item’].unique()) # 返回的是去重的枚举值 比如: ACT、TGT
print(df[‘Item’].nunique()) # 返回的是去重的枚举值的 数量 比如:2

#3、查看-建议一组使用 :单个值如何统计枚举数据 ? 所有值如何统计枚举数据?
df.Item.value_counts(dropna=False) # 总数10行 ,其中 ACT是6行,TGT是4行
df.apply(pd.Series.value_counts) # 这个计数统计比较厉害

#4、先查看重复行 、删除重复行
df.duplicated() #返回 True、FALSE 不太好用

#5、不改变原始数据,需要重新导出保存一份数据
dfdropdu=df.drop_duplicates()
dfdropdu.to_excel(‘/Users/Desktop/meteorological-data-new.xlsx’)

再查看-数据层面

df.describe() #查看数值类型的汇总统计 (count、mean、std、min、25%、50%、75%、max)

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值