python科学计算之pandas

大白说

已于 2023-04-18 15:38:00 修改

阅读量3.6k

点赞数

分类专栏： AI-人工智能 Python 文章标签： python 科学计算 pandas

于 2019-03-12 20:47:29 首次发布

本文链接：https://blog.csdn.net/atpuxiner/article/details/88428860

版权

Python 同时被 2 个专栏收录

28 篇文章 2 订阅

订阅专栏

AI-人工智能

6 篇文章 0 订阅

订阅专栏

### 简介
Pandas是Python中一个强大的数据处理和分析库，它提供了Series和DataFrame两种常用的数据结构。
在数据处理和分析方面拥有广泛的应用，包括数据预处理、数据探索、特征工程、数据可视化等。
它主要针对二维表格（如CSV文件、SQL数据库、Excel文件等）进行操作，提供了一系列功能强大的数据结构和工具，可以快速地读取、处理、聚合和分析数据。


#### 一、数据结构
在Pandas中，最基本的两种数据结构是Series和DataFrame。

Series是一种类似于一维数组的对象，它包含了一组数据和一组与之相关的标签（索引）。

DataFrame是由多个Series对象构成的表格型数据结构，每个Series对象在DataFrame中都是一列。DataFrame还拥有行索引和列索引。

下面是创建和访问Series和DataFrame的例子：
```text
import pandas as pd

# 创建一个Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])

# 创建一个DataFrame
df = pd.DataFrame({'A': [1, 2, 3, 4], 
                   'B': pd.Timestamp('20190101'), 
                   'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                   'D': np.array([5] * 4, dtype='int32'), 
                   'E': pd.Categorical(["true", "false", "true", "false"]),
                   'F': 'foo'})

# 访问DataFrame的列
print(df['A'])

# 访问DataFrame的行
print(df.loc[0])

```


#### 二、数据读取和处理
Pandas可以支持许多不同类型的数据源，如CSV文件、SQL数据库、Excel文件等。Pandas提供了许多读取和写入数据的功能，使得数据的导入和导出变得非常容易。例如，可以使用read_csv()函数读取CSV文件，然后将其转换为DataFrame。

下面是一个读取CSV文件的例子：
```text
import pandas as pd

# 读取CSV文件
df = pd.read_csv("data.csv")

# 查看前5行数据
print(df.head())

```
Pandas还提供了一系列功能强大的数据操作和转换工具，使得数据的处理和分析更加简单和快速。例如，可以使用groupby()方法对数据进行分组，然后进行聚合操作。

下面是一个聚合操作的例子：
```text
import pandas as pd

# 读取CSV文件
df = pd.read_csv("data.csv")

# 按照“Name”列进行分组，求各列的平均值
df.groupby("Name").mean()

```


#### 三、数据可视化
数据可视化是非常重要的分析数据的方法。Pandas提供了许多绘图功能，可以直接将数据输出为图形化的结果。可以使用plot()函数对Series和DataFrame进行可视化，例如直方图、散点图、折线图等。

下面是一个绘制散点图的例子：
```text
import pandas as pd

# 读取CSV文件
df = pd.read_csv("data.csv")

# 绘制散点图
df.plot(kind='scatter', x='Weight', y='Height')

```