pythonpandas库_python 之pandas库

pandas库可用作数据处理和数据分析,常用两种数据结构:Series和DataFrame。Series由一组数据和与之对应的数据标签(即索引)构成,DataFrame类似于数据库中表或者Excel中表格数据格式,既有行索引又有列索引,DataFrame可看作由多个Series构成,每个Series看成是DataFrame的一个列。

一.Series的创建

二.DataFrame创建

三.pandas数据读取和保存

1.csv文件和Excel文件的读取和保存

pd.read_csv(filename,encoding,dtype,nrows,sep,na_values,header=0)

此命令读取csv文件,filename是文件的存放路径和文件名,nrows指定读取前多少行,sep指定分隔符,na_values定义缺失值,header=0默认把第一行当做表头不读入数据

pd.read_excel(filename,encoding,dtype,sheet_name)

此命令读取excel文件,sheet_name指定工作簿中要打开的工作表名称,dtype指定打开后各字段的数据类型,以字典形式给出

2.mysql数据库文件读取和保存

读取:create_engine('mysql+pymysql://用户名:密码@IP:3306/数据库名')

保存:

四.数据增删改查

五.数据合并

六.数据排序、分组、聚合

七.基本统计量计算、透视表和交叉表函数

透视表:

pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')

注:data是原数据表,values是要计算的数值型字段,index是行分组键,columns是列分组键,aggfunc是聚合函数,fill_value为对缺失值的处理,margins是否需要总计,dropna是否删除缺失值

交叉表:

pd.crosstab(index, columns, values=None,rownames=None, colnames=None, aggfunc=None, margins=False, dropna=True, normalize=False)

注:normalize=‘columns’计算列百分比,normalize=‘index’计算行百分比

八.数据类型转换

九.层次化索引

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值