pandas介绍
它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数和不使用for循环的数据处理。
pandas的数据结构
两个主要数据结构:Series和DataFrame。为大多数应用提供了一种可靠的、易于使用的基础。
Series
Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。
可仅由一组数据即可产生最简单的Series
=====================================
Series的字符串表现形式为:索引在左边,值在右边。由于我们没有为数据指定索引,于是会自动创建一个0到N-1(N为数据的长度)的整数型索引。通过Series 的values和index属性获取其数组表示形式和索引对象
=====================================
创建的Series带有一个可以对各个数据点进行标记的索引
=====================================
通过索引的方式选取Series中的单个或一组值
[‘s’, ‘d’, ‘x’]是索引列表,即使它包含的是字符串而不是整数。使用NumPy函数或类似NumPy的运算(如根据布尔型数组进行过滤、标量乘法、应用数学函数等)都会保留索引值的链接
=====================================
=====================================
还可以将Series看成是一个定长的有序字典,因为它是索引值到数据值的一个映射。它可以用在许多原本需要字典参数的函数中
=====================================
如果数据被存放在一个Python字典中,也可以直接通过这个字典来创建Series
=====================================
如果只传入一个字典,则结果Series中的索引就是原字典的键(有序排列)。你可以传入排好序的字典的键以改变顺序
=====================================
将使用缺失(missing)或NA表示缺失数据。pandas的isnull和notnull函数可用于检测缺失数据
=====================================
Series也有类似的实例方法
=====================================
Series最重要的一个功能是,它会根据运算的索引标签自动对齐数据
=====================================
Series对象本身及其索引都有一个name属性,该属性跟pandas其他的关键功能关系非常密切
=====================================
Series的索引可以通过赋值的方式就地修改
++++++++++++++++++++++++++++++++++++