Pandas数据分析3-统计、可视化、创建数据框、时间序列、删除数据

统计

import pandas as pd
import datetime
import pandas as pd
path6 = "E:/kaggle数据/exercise_data/wind.data"
# 将数据作存储并且设置前三列为合适的索引
df6 = pd.read_table(path6, sep = "\s+", parse_dates = [[0,1,2]]) 
df6.head()

在这里插入图片描述

#Yr_Mo_Dy列出现了2061年,不合理,x,需要修正
def fix_century(x):
	year = x.year-100 if x.year > 1989 else x.year
	return datetime.date(year,x.month,x.day)
df6['Yr_Mo_Dy'] = df6['Yr_Mo_Dy'].apply(fix_century)
df6.head()

#将Yr_Mo_Dy列设置为datetime64类型,且设为索引列
df['Yr_Mo_Dy'] = pd.to_datetime(df6['Yr_Mo_Dy'])
df6 = df6.set_index('Yr_Mo_Dy')
df6.head()

#求每列的缺失数据量
df6.isnull().sum()

#求每列的非缺失数据量
df6.shape[0] - df6.isnull().sum()

#总体平均值
df6.mean().mean()  #df6.mean()输出每列均值,df6.mean().mean()输出均值的均值

#创建一个名为loc_stats的数据框去计算并存储每个location的风速最小值,最大值,平均值和标准差
loc_stats = pd.DataFrame()
loc_stats['min'] = df6.min()  #每列的最小值
loc_stats['max'] = df6.max(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值