NumPy入门系列(一)
NumPy入门系列(二)
何为Pandas?
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
pandas的数据结构
Series
Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。
pd.Series( data=None, 一组数据类型(python内置序列,numpy一维数组) index=None, 数据索引,默认为0- N-1 dtype=None, 数据类型 name=None, copy=False, fastpath=False,)
Series对象本身及其索引都有一个name属性,该属性跟pandas其他的关键功能关系非常密切:
DataFrame
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的类型(数值、字符串、布尔值等。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引。创建DataFrame的办法有很多,最常用的一种是直接传入一个由等长列表或NumPy数组组成的字典:
你可以设置dataframe的显示范围:
dataframe的属性:
从二维数组创建或从表格重塑表格:
数据表的索引与修改:
将列表或数组赋值给某个列时,其长度必须跟DataFrame的长度相匹配。如果赋值 的是一个Series,就会精确匹配DataFrame的索引,所有的空位都将被填上缺失 值:
可以用del方法删除列:
数据类型访问:
下表列出了DataFrame构造函数所能接受的各种数据:
索引对象 index
构建Series或 DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一个Index,Index对象是不可变的,因此用户不能对其进行修改:
另外,pandas的Index可以包含重复的标签。