pandas是python环境下最有名的数据统计包,而DataFrame翻译为数据框,是一种数据组织方式,这么说你可能无法从感性上认识它,举个例子,你大概用过Excel,而它也是一种数据组织和呈现的方式,简单说就是表格,而在在pandas中用DataFrame组织数据,如果你不print DataFrame,你看不到这些数据,下面我们来看看DataFrame是如何使用的。
首先是引入pandas和numpy,这是经常配合使用的两个包,pandas依赖于numpy,引入以后我们可以直接使用np/pd来表示这个两个模块
先创建一个时间索引,所谓的索引(index)就是每一行数据的id,可以标识每一行的唯一值
为了快速入门,我们看一下如何创建一个6X4的数据:randn函数用于创建随机数,参数表示行数和列数,dates是上一步创建的索引列
我们还可以使用字典来创建数据框,例如创建一个列名为A的数据框,索引是自动创建的整数
这又是一个字典创建DataFrame的例子
假如字典内的数据长度不同,以最长的数据为准,比如B列有4行:
可以使用dtypes来查看各行的数据格式
接着看一下如何查看数据框中的数据,看一下所有的数据
使用head查看前几行数据(默认是前5行),不过你可以指定前几行
查看前三行数据
使用tail查看后5行数据
查看数据框的索引
查看列名用columns
查看数据值,用values
查看描述性统计,用describe
使用type看一下输出的描述性统计是什么样的数据类型——DataFrame数据
使用T来转置数据,也就是行列转换
对数据进行排序,用到了sort,参数可以指定根据哪一列数据进行排序。
pandas教程:[2]DataFrame选择数据-1
- |
- 浏览:17973
- |
- 更新:2014-07-29 18:17
上一篇文章介绍了如何创建和查看DataFrame数据,这篇文章讲一下如何选择DataFrame中的数据,还是用例子来说明问题。
先来看一下今天用到的数据框的内容
假如我们要选择A列的数据进行操作:df['a']
还可以使用数组的切片操作,但是注意了,切片得到的是行数据
如果你想使用这个方法得到列,那就会出现错误
我们还可以使用行标签来指定输出的行
DataFrame的loc方法是帮助选择数据的,比如选择索引位置为0的一行数据(注意我们是用dates作为索引的)
选择多列数据的写法
假如我们要选择的是一个局部数据,是行和列的交叉区域
假如我们只选择某一个数据,可以指定行和列:
当然,at方法是专门用于获取某个值的:
选择数据就是用到了切片和loc、at方法,下一篇文章介绍一下iloc方法选择数据,它使你像操作array一样操作DataFrame
pandas教程:[3]DataFrame切片操作
- |
- 浏览:12462
- |
- 更新:2018-01-24 22:45
DataFrame数据框允许我们使用iloc方法来像操作array(数组)一样对DataFrame进行切片操作,其形式上,跟对数组进行切片是一样的,我们下面来演示一下一些典型的切片操作:
先创建一个6行4列的DataFrame数据框
使用iloc方法,提取第四行数据:
我们可以看一下,这种方法得到的返回值是一个series数据
返回4-5行,1-2列数据,用下面的写法,你可以看到跟array的切片操作是一模一样的额
我们也可以提取不连续行和列的数
想要提取某一样或者某几行的数据,保证所有列都在,可以使用一个冒号来表示所有列
当然,所有行,也可以用冒号来表示
提取某一个值,去掉所有冒号,比如取第2行第2列的这个数
当然,iat是专门提取某个数的方法,它的效率高更高,因此建议在提取单个数的时候用iat