python数据处理模块pandas_Python 数据处理扩展包: pandas 模块的DataFrame介绍(创建和基本操作)...

DataFrame是Pandas中的一个表结构的数据结构,包括三部分信息,表头(列的名称),表的内容(二维矩阵),索引(每行一个唯一的标记)。

一、DataFrame的创建

有多种方式可以创建DataFrame,下面举例介绍。

例1: 通过list创建

>>> import pandas as pd

>>> df = pd.DataFrame([[1,2,3],[4,5,6]])

>>> df

0 1 2

0 1 2 3

1 4 5 6

[2 rows x 3 columns]

上面代表,创建了一个2行3列的表格,创建时只指定了表格的内容(通过一个嵌套的list),没有指定列名和索引。

这时列名就自动为 0,1,2 ;索引自动为数值0,1.

我们可以指定列表和索引,如:

>>> df = pd.DataFrame([[1,2,3],[4,5,6]],index=['row1','row2'],columns=['c1','c2','c3'])

>>> df

c1 c2 c3

row1 1 2 3

row2 4 5 6

[2 rows x 3 columns]

可以看出,上面代码通过index和 columns参数指定了索引和列名。

例2:创建例子

>>> import numpy as np

>>> dates = pd.date_range('',periods=6)

>>> df = pd.DataFrame(np.random.randn(6,4) , index = dates,columns=list('abcd'))

>>> df

a b c d

2012-10-01 -0.236220 0.586985 0.784953 -0.507129

2012-10-02 -1.020807 -1.316997 -0.747997 1.909333

2012-10-03 0.085208 -0.281736 1.112287 1.572577

2012-10-04 0.008708 -0.925711 -0.615752 -1.183397

2012-10-05 1.158198 -1.393678 0.586624 0.202499

2012-10-06 1.149878 -2.383863 1.646403 1.647935

[6 rows x 4 columns]

上面代码创建的dates是个时间索引,np.random.randn 方法创建一个6行4列的随机数矩阵。

最后的df使用 dates作为索引,使用np.random.randn 方法创建的矩阵作为内容,使用 list('abcd')作为列名。

二、 DataFrame的一些基本操作

1、获取数据的行数

len(df)

len(df.index)

2、显示索引、列和底层的numpy数据

>>> df.index

[2012-10-01, ..., 2012-10-06]

Length: 6, Freq: D, Timezone: None

>>> df.columns

Index([u'a', u'b', u'c', u'd'], dtype='object')

>>> df.values

array([[-0.2362202 , 0.58698529, 0.78495289, -0.50712897],

[-1.02080723, -1.31699704, -0.74799734, 1.90933343],

[ 0.08520807, -0.28173589, 1.11228743, 1.57257716],

[ 0.00870768, -0.92571109, -0.6157519 , -1.18339719],

[ 1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值