pandas是基于NumPy数组构建的,特别是基于数组的函数和不使用for循环的数据处理。
pandas和NumPy最大的不同是pandas是专门为处理表格和混杂数据设计的,而NumPy更适合处理统一的数值数组数据。
pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化matplotlib。
1 pandas的数据结构介绍
两个主要数据结构:Series和DataFrame*
1.1 Series
Series由一组数据(各种NumPy数据类型) 以及一组与之相关的数据标签(即索引) 组成
- 创建series
如果数据被存放在一个Python字典中,也可以直接通过这个字典来创建Series:
1.2 DataFrame
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等),可以被
看做由Series组成的字典(共用同一个索引) 。
创建DataFrame
- 直接传入一个由等长列表或NumPy数组组成的字典:
- 如果传入的列在数据中找不到,就会在结果中产生缺失值:
- 创建新列
- 删除列