azw3 python数据分析 活用pandas库_python数据分析 pandas库的学习(3)

这篇博客介绍了如何使用Python的Pandas库进行数据处理和分析。通过read_csv和read_excel函数导入数据,展示了查看数据结构、筛选数据行、进行描述性统计分析等基本操作。还探讨了数据的偏度和峰度,并定义了一个自定义函数stats来计算多个统计量。
摘要由CSDN通过智能技术生成

importpandas as pdimportnumpy as np'''这里主要讲pandas如何导入数据并对数据做最基本的操作和处理

pandas导入数据的方法主要有两种,一个是read_csv,另一个是read_excel'''df= pd.read_csv(r"C:\Users\12046\Desktop\housing(1).csv")'''read_csv函数作为最基本的读取函数一般是用的最多的,其表达式为

read_csv(r'routine',index_col可用来选取适合的列作为该列表中的主键,其实也不是特别必要)

当我们导出文件后第一步要观察该数据的结构'''

'''print(df.head(5)) # 查看前n行的数据,注意是行不是列

print(df.tail(5)) # 查看后n行的数据

print(df.shape) # 查看有多少行列

print(df.info)''' #一个函数涵盖上面三个函数的功能

#下面尝试利用dataframe对这组数据做切割,将各行的数据都提取出来

RM=df['RM']

Lstat=df['LSTAT']

Ptratio=df['PTRATIO']

medv=df['MEDV']#这里可以引入布尔条件下的dataframe的筛选了

'''print(df[df.RM>7]) #单值筛选

print(df[(df.RM>7)|(df.MEDV>600000)]) #|表示且的多值筛选

print(df[(df.RM>7)&(df.MEDV>600000)]) # &表示或的多值筛选

#先对df做列筛选,选出要用的列,然后再进行条件筛选

print(df[['RM','MEDV']][(df.RM>7)|(df.MEDV>600000)])'''

#这里的筛选操作对后续的分析很重要,所以要熟练掌握dataframe中所有格式

'''print(df.describe()) #describe函数对df进行描述性统计分析

print(df.skew(),df.kurt()) #还有偏度和峰度这两个变量要进行分析

#以及对numpy中常用的函数都可以在dataframe上使用'''

#这个函数可以直接给出所有常见的统计量,但是要注意数据类型的影响

'''def stats(x):

return pd.Series([x.count(),x.min(),x.idxmin(),

x.quantile(.25),x.median(),

x.quantile(.75),x.mean(),x.max(),x.idxmax(),x.mad(),x.var(),x.std(),x.skew(),x.kurt()],

index = ['Count','Min','Whicn_Min',

'Q1','Median','Q3','Mean',

'Max','Which_Max','Mad',

'Var','Std','Skew','Kurt'])

print(stats(df[['RM','LSTAT','PTRATIO','MEDV']]))'''

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值