Python数据分析——Pandas(1)

学习目标

  • 目标
    • 了解Numpy与Pandas的不同
    • 了解Pandas的MultiIndex与panel结构
    • 说明Pandas的Series与Dataframe两种结构的区别
  • 应用
    • 股票涨跌幅数据的修改

1 Pandas介绍

  • 2008年WesMcKinney开发出的库
  • 专门用于数据挖掘的开源python库
  • 以Numpy为基础,借力Numpy模块在计算方面性能高的优势
  • 基于matplotlib,能够简便的画图
  • 独特的数据结构

2 为什么使用Pandas

Numpy已经能够帮助我们处理数据,能够结合matplotlib解决部分数据展示等问题,那么pandas学习的目的在什么地方呢?

  • 便捷的数据处理能力

 

  • 读取文件方便
  • 封装了Matplotlib、Numpy的画图和计算

3 案例:

# 导入pandas

import pandas as pd

回忆我们在numpy当中创建的股票涨跌幅数据形式?**

# 创建一个符合正太分布的10个股票5天的涨跌幅数据
stock_change = np.random.normal(0, 1, (10, 5))
stock_change

但是这样的数据形式很难看到存储的是什么的样的数据,并也很难获取相应的数据,比如需要获取某个指定股票的数据,就很难去获取!!

问题:如何让数据更有意义的显示?处理刚才的股票数据

# 使用Pandas中的数据结构
stock_day_rise = pd.DataFrame(stock_change)
stock_day_rise

给股票涨跌幅数据增加行列索引,显示效果更佳

  • 增加行索引
# 构造行索引序列
stock_code = ['股票' + str(i) for i in range(stock_day_rise.shape[0])]

# 添加行索引
data = pd.DataFrame(stock_change, index=stock_code)
  • 增加列索引

股票的日期是一个时间的序列,我们要实现从前往后的时间还要考虑每月的总天数等,不方便。使用pd.date_range():用于生成一组连续的时间序列(暂时了解)

date_range(start=None,end=None, periods=None, freq='B')

    start:开始时间

    end:结束时间

    periods:时间天数

    freq:递进单位,默认1天,'B'默认略过周末
# 生成一个时间的序列,略过周末非交易日
date = pd.date_range('2017-01-01', periods=stock_day_rise.shape[1], freq='B')

# index代表行索引,columns代表列索引
data = pd.DataFrame(stock_change, index=stock_code, columns=date)
data

效果:

4 DataFrame

4.1 DataFrame结构

DataFrame对象既有行索引,又有列索引

  • 行索引,表明不同行,横向索引,叫index,0轴,axis=0
  • 列索引,表名不同列,纵向索引,叫columns,1轴,axis=1

  

4.2 DatatFrame的属性

  • shape
data.shape

结果: 

  • index

DataFrame的行索引列表

data.index

结果: 

  • columns

DataFrame的列索引列表

data.columns

结果: 

  • values

直接获取其中array的值

data.values

结果: 

  • T

转置

data.T

结果:

  • head(5):显示前5行内容

如果不补充参数,默认5行。填入参数N则显示前N行

data.head(5)

 结果:

  • tail(5):显示后5行内容

如果不补充参数,默认5行。填入参数N则显示后N行

data.tail(5)

结果: 

4.3 DatatFrame索引的设置

4.3.1修改行列索引值

stock_code = ["股票_" + str(i) for i in range(stock_day_rise.shape[0])]

# 必须整体全部修改
data.index = stock_code

结果: 

注意:以下修改方式是错误的

# 错误修改方式
data.index[3] = '股票_3'

4.3.2 重设索引

  • reset_index(drop=False)
    • 设置新的下标索引
    • drop:默认为False,不删除原来索引,如果为True,删除原来的索引值
# 重置索引,drop=False
data.reset_index()

结果:

# 重置索引,drop=True
data.reset_index(drop=True)

结果:

4.3.3 以某列值设置为新的索引

  • set_index(keysdrop=True)

    • keys : 列索引名成或者列索引名称的列表
    • drop : boolean, default True.当做新的索引,删除原来的列
  • 设置新索引案例

1、创建

df = pd.DataFrame({'month': [1, 4, 7, 10],
                    'year': [2012, 2014, 2013, 2014],
                    'sale':[55, 40, 84, 31]})

2、以月份设置新的索引

df.set_index('month')

3、设置多个索引,以年和月份

df = df.set_index(['year', 'month'])
df

 

注:通过刚才的设置,这样DataFrame就变成了一个具有MultiIndex的DataFrame。

5 MultiIndex与Panel

打印刚才的df的行索引结果

df.index

5.1 MultiIndex

多级或分层索引对象。

  • index属性
    • names:levels的名称
    • levels:每个level的元组值
df.index.names

df.index.levels

5.2 Panel

  • class pandas.Panel(data=Noneitems=Nonemajor_axis=Noneminor_axis=Nonecopy=Falsedtype=None)
    • 存储3维数组的Panel结构
p = pd.Panel(np.arange(24).reshape(4,3,2),
                 items=list('ABCD'),
                 major_axis=pd.date_range('20130101', periods=3),
                 minor_axis=['first', 'second'])
p

<class 'pandas.core.panel.Panel'>
Dimensions: 4 (items) x 3 (major_axis) x 2 (minor_axis)
Items axis: A to D
Major_axis axis: 2013-01-01 00:00:00 to 2013-01-03 00:00:00
Minor_axis axis: first to second
  • items - axis 0,每个项目对应于内部包含的数据帧(DataFrame)。
  • major_axis - axis 1,它是每个数据帧(DataFrame)的索引(行)。
  • minor_axis - axis 2,它是每个数据帧(DataFrame)的列。

查看panel数据:

p[:,:,"first"]
p["B",:,:]

注:Pandas从版本0.20.0开始弃用:推荐的用于表示3D数据的方法是通过DataFrame上的MultiIndex方法

6 Series结构

什么是Series结构呢,我们直接看下面的图:

  • series结构只有行索引

我们将之前的涨跌幅数据进行转置,然后获取'股票0'的所有数据

# series
type(data['2017-01-02'])


# 这一步相当于是series去获取行索引的值
data['2017-01-02']['股票_0']

6.1 创建series

通过已有数据创建

  • 指定内容,默认索引
pd.Series(np.arange(10))
  • 指定索引
pd.Series([6.7,5.6,3,10,2], index=[1,2,3,4,5])

通过字典数据创建

pd.Series({'red':100, ''blue':200, 'green': 500, 'yellow':1000})

6.2 series获取属性和值

  • index
  • values

7 小结

  • pandas的优势【了解】
    • 便捷的数据处理能力
    • 读取文件方便
    • 封装了Matplotlib、Numpy的画图和计算
  • DataFrame属性【知道】
    • shape -- 形状
    • index -- 行索引
    • columns -- 列索引
    • values -- 查看值
    • T -- 转置
    • head() -- 查看头部内容
    • tail() -- 查看尾部内容
  • DataFrame索引【知道】
    • 修改的时候,需要进行全局修改
    • 对象.reset_index()
    • 对象.set_index(keys)
  • MultiIndex与Panel【掌握】
    • multiIndex:
      • 类似ndarray中的三维数组
      • 对象.index
    • panel:
      • pd.Panel(data, items, major_axis, minor_axis)
      • panel数据要是想看到,则需要进行索引到dataframe或者series才可以
  • series【掌握】
    • 创建
      • 1.pd.Series([], index=[])
      • 2.pd.Series({})
    • 属性
      • 对象.index
      • 对象.values
  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值