小弟的目录
Pandas概述:
Pandas是一个基于Numpy的数据分析包,它是为了解决数据分析任务而创建的。Pandas中纳入了大量库和标准的数据模型,提供了高效地操作大型数据集所需的函数和方法,使用户能够快速便捷地处理数据。
Pandas特点:
- 一个快速高效的DataFrame对象,具有默认和自定义的索引
*用于在数据结构和不同文件格式中读取和写入数据,比如文本文件
*智能数据对齐和缺失数据的集成处理
*基于标签切片和花式索引获取数据集的子集
*可以删除或插入来自数据结构的列
*按数据分组进行聚合和转换
*高性能的数据合并和连接
*时间序列功能
Pandas的数据结构分析
Pandas中有两个主要的数据结构:Series
和DataFrame
。其中Series
是一维的、DataFrame
是二维的。
Series
Series的介绍
Series是一个类似于一维数组的对象,它能够保存任何类型的数据,主要由一组数据和与之相关的索引两部分构成。
Series
index | element |
---|---|
0 | 1 |
1 | 2 |
2 | 3 |
3 | 4 |
4 | 5 |
索引在左,数据在右
Series对象的创建
Pandas的Series类对象可以使用以下构造方法创建:
class pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
构造方法中常用参数含义如下:
1.data:传入的数据,可以是ndarray、list等。
2.index:索引,必须是唯一的,且与数据的长度相同。如果没有传入索引参数,默认会自动创建一个从0~N的整数索引。
3.dtype:数据的类型
4.copy:是否复制数据,默认为False
import pandas as pd
ser_obj = pd.Series([1,2,3,4,5])
ser_obj
可以在创建的时候,为数据指定索引:
import pandas as pd
ser_obj = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])
ser_obj
使用列表构建Series外,可以使用dict进行构建,具体如