什么是Pandas?
1. Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的
2. pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具
3.pandas提供了大量能使我们快速便捷地处理数据的函数和方法
4.它使Python成为强大而高效的数据分析环境的重要因素之一
导入Pandas
1.Pandas常用的两种结构:
(1) Series 是一个类似数组的数据结构
(2) DataFrame 数据框 类似于Excel,DataFrame组织数据,处理数据
2. Python数据分析三剑客:Pandas、Numpy、Matplotlib
'''Python数据分析三剑客:Pandas、Numpy、matplotlib''' import pandas as pd # 导入Pandas from pandas import DataFrame,Series # 导入DataFrame,Series(Pandas常用的结构) import numpy as np import matplotlib.pyplot as plt
Series
Series 是一种类似与一维数组的对象,由下面两个部分组成:
· values: 一组数据(ndarray类型)
· index : 相关的数据索引标签
1. Series的创建
两种创建方式:
(1) 由列表或numpy数组创建默认索引为0到N-1的整数型索引
通过Series() 创建Series的对象, 可以指定index参数来自定义索引,默认是从0开始的自然数
如果创建的时候没有指定,通过 Series对象.index = 索引列表 这种方式进行指定
from pandas import Series import numpy as np # 通过创建numpy创建数组 nd = np.array([1, 4, 5, 6, 2, 3]) # 通过Series() 创建数组 s = Series(nd) print(s) """ 运行结果: 0 1 1 4 2 5 3 6 4 2 5 3 dtype: int32 自动会加上索引,没有指定索引的话,默认是从0开始的自然数 """ '''可以通过设置index参数指定索引''' s.index = list('abcdef') print(s) """ 运行结果: a 1 b 4 c 5 d 6 e 2 f 3 dtype: int32 """
特别地,由ndarray创建的是引用,而不是副本,对Series元素的改变也会改变ndarray对象中的元素,(而列表没有这种情况), 使用Series创建的时候,ndarray或者是列表必须是一维的
(2)由字典创建
# 由字典创建 s2 = Series({"a": 1, "b": 2, "c": 3}) print(s2) """ 运行结果: a 1 b 2 c 3 dtype: int64 """