### 简介 Pandas是Python中一个强大的数据处理和分析库,它提供了Series和DataFrame两种常用的数据结构。 在数据处理和分析方面拥有广泛的应用,包括数据预处理、数据探索、特征工程、数据可视化等。 它主要针对二维表格(如CSV文件、SQL数据库、Excel文件等)进行操作,提供了一系列功能强大的数据结构和工具,可以快速地读取、处理、聚合和分析数据。 #### 一、数据结构 在Pandas中,最基本的两种数据结构是Series和DataFrame。 Series是一种类似于一维数组的对象,它包含了一组数据和一组与之相关的标签(索引)。 DataFrame是由多个Series对象构成的表格型数据结构,每个Series对象在DataFrame中都是一列。DataFrame还拥有行索引和列索引。 下面是创建和访问Series和DataFrame的例子: ```text import pandas as pd # 创建一个Series s = pd.Series([1, 3, 5, np.nan, 6, 8]) # 创建一个DataFrame df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': pd.Timestamp('20190101'), 'C': pd.Series(1, index=list(range(4)), dtype='float32'), 'D': np.array([5] * 4, dtype='int32'), 'E': pd.Categorical(["true", "false", "true", "false"]), 'F': 'foo'}) # 访问DataFrame的列 print(df['A']) # 访问DataFrame的行 print(df.loc[0]) ``` #### 二、数据读取和处理 Pandas可以支持许多不同类型的数据源,如CSV文件、SQL数据库、Excel文件等。Pandas提供了许多读取和写入数据的功能,使得数据的导入和导出变得非常容易。例如,可以使用read_csv()函数读取CSV文件,然后将其转换为DataFrame。 下面是一个读取CSV文件的例子: ```text import pandas as pd # 读取CSV文件 df = pd.read_csv("data.csv") # 查看前5行数据 print(df.head()) ``` Pandas还提供了一系列功能强大的数据操作和转换工具,使得数据的处理和分析更加简单和快速。例如,可以使用groupby()方法对数据进行分组,然后进行聚合操作。 下面是一个聚合操作的例子: ```text import pandas as pd # 读取CSV文件 df = pd.read_csv("data.csv") # 按照“Name”列进行分组,求各列的平均值 df.groupby("Name").mean() ``` #### 三、数据可视化 数据可视化是非常重要的分析数据的方法。Pandas提供了许多绘图功能,可以直接将数据输出为图形化的结果。可以使用plot()函数对Series和DataFrame进行可视化,例如直方图、散点图、折线图等。 下面是一个绘制散点图的例子: ```text import pandas as pd # 读取CSV文件 df = pd.read_csv("data.csv") # 绘制散点图 df.plot(kind='scatter', x='Weight', y='Height') ```
python科学计算之pandas
于 2019-03-12 20:47:29 首次发布