pandas数据分析核心工具包,基于numpy构建,为数据分析而存在!具有以下特点:
1、一位数组Series+二维数组Dataframe
2、可直接读取数据做处理
3、兼容各种数据库
4、支持各种分析算法
pandas学习什么?
第一:数据结构篇:
数据结构是学习的基石,python内置的字符串、列表、字典等是数据类型也是一种数据结构,每种类型都有各自对应的方法(字符串函数、列表函数等),所以只有先掌握pandas自身的数据结构在此基础上了解他们的方法,才能熟练使用pandas。
Series基本概念及创建
Series索引
Series基本技巧
Dataframe基本概念及创建
Dataframe索引
Dataframe基本技巧
第二:读写excel
掌握了pandas数据结构和基本用法就可以上手读写excel了,因为pandas读取excel会把其转为Dataframe对象,利用之前学习的Dataframe对象的方法就可以操作excel的数据了。
第三:时间相关
时间操作是进一步对pandas的精细化学习,因为处理excel时候会经常涉及日期、时间类的操作。
时间模块:datetime
时刻数据:Timestamp
时间戳索引:DatetimeIndex
时期:Period
时间序列:索引及切片
时间序列:重采样
第四:数据处理
熟练pandas基本操作后,结合数据处理函数才能实现数据分析,这一步是对pandas的综合练习。
数值计算和统计基础
文本数据
合并merge、join
连接与修补concat、combine_first
去重和分组
分组转换及一般特性"拆分-应用-合并"
透视表及交叉表
文件读取
windows安装pip即可。(linux下和windows下均可使用pip安装。但是pip源安装默认会跟慢,因此推荐大家使用豆瓣源。)
pip install pandas -i http://pypi.douban.com/simple --trusted-host pypi.douban.com