Python学习之旅(四) 数据处理基础

最新推荐文章于 2024-06-09 10:11:45 发布

code_magic

最新推荐文章于 2024-06-09 10:11:45 发布

阅读量862

点赞数 19

分类专栏： Python学习之旅文章标签： python 学习开发语言

本文链接：https://blog.csdn.net/code_magic/article/details/136722317

版权

Python学习之旅专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在数据科学和机器学习项目中，处理和分析数据是最基础也是最关键的步骤之一。NumPy和Pandas是Python中最流行的两个库，用于数值数据和表格数据的处理。而Matplotlib和Seaborn则是用于数据可视化的库，它们可以帮助我们理解数据并向他人展示分析结果。

4.1 使用NumPy处理数字数据

NumPy是Python的一个扩展库，它支持大量的维度数组与矩阵运算，此外也针对数组运算提供了大量的数学函数库。

4.1.1 NumPy数组的创建和属性

NumPy数组是一个强大的N维数组对象，它是NumPy库的核心。NumPy数组比Python的内置序列类型具有更多的优势，特别是对于数值计算。
想象NumPy数组是一个超级强化版的Python列表，专为数学和科学计算设计。就像一个装满不同种类苹果的大篮子，每个苹果（元素）都可以是不同的数值，而篮子（数组）本身则有助于我们高效地管理和运算这些苹果。

import numpy as np

# 创建一个一维NumPy数组
arr = np.array([1, 2, 3, 4, 5])
print("Array:", arr)

# 查看数组属性
print("Shape:", arr.shape)  # 输出数组形状
print("Dimension:", arr.ndim)  # 输出数组维度
print("Data Type:", arr.dtype)  # 输出数组中元素的数据类型

这段代码展示了如何创建一个简单的一维NumPy数组，并查看其基本属性。shape告诉我们数组的尺寸，ndim显示数组的维度，而dtype则说明数组中元素的数据类型。

4.1.2 数组索引和切片

索引和切片允许我们访问和修改数组的特定部分。这在处理大型数据集时特别有用，我们可以只关注感兴趣的数据部分。
就像在一本书中找到特定的章节一样，索引和切片让我们能够精确地定位并操作数组中的特定数据。

# 索引：访问第三个元素
print("Third element:", arr[2])  # 输出: 3

# 切片：获取前三个元素
print("First three elements:", arr[:3])  # 输出: [1 2 3]

这里我们展示了如何使用索引来访问数组中的单个元素，以及如何使用切片来访问数组的一部分。注意数组索引是从0开始的，所以arr[2]实际上是访问的数组中的第三个元素。

4.1.3 数组运算和广播

NumPy支持数组之间的基本运算，包括加、减、乘、除等。当运算涉及到形状不同的数组时，NumPy能够应用广播规则来执行元素级的运算。
如果把数组想象成数学中的向量或矩阵，那么NumPy允许我们像处理单个数字一样处理这些向量和矩阵。即使它们的形状不同，NumPy也能够智能地扩展它们以便进行运算，这就是所谓的“广播”。

# 数组与标量之间的运算
print(arr + 10)  # 每个元素加10



# 数组之间的运算
print(arr + np.array([10, 10, 10, 10, 10]))  # 对应元素相加

在第一个操作中，我们将一个标量值10加到数组arr的每个元素上。在第二个操作中，我们将两个形状相同的数组相加，得到元素对应相加的结果。这展示了NumPy如何使数组运算变得简洁和高效。

在接下来的部分中，我们将以同样的方式探索Pandas库以及数据可视化的基础知识。

4.2 使用Pandas处理表格数据

Pandas是一个强大的Python数据分析库，提供了快速、灵活、直观的数据结构，用于处理关系型或标记型数据。

4.2.1 DataFrame和Series

Pandas的两个主要数据结构是DataFrame和Series。DataFrame是一个二维表格型数据结构，有行索引和列标签；Series则是一个一维标签化数组，可以被看作是DataFrame的单列。
如果DataFrame是整本账簿，那么Series就是账簿中的单一页或一列数据。DataFrame提供了一个表格，其中包含多种类型的数据，每种类型的数据占据一列，而Series则专注于单一类型的数据序列。

import pandas as pd

# 创建DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Paris', 'London']
})
print(df)

# 创建Series
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'], name='Numbers')
print(s)

在这个例子中，我们首先创建了一个包含姓名、年龄和城市的DataFrame。然后，我们创建了一个名为Numbers的Series，它包含了一系列数字和自定义的索引。

4.2.2 数据加载和保存

Pandas支持从多种文件格式（如CSV、Excel、JSON等）加载数据，并且可以将数据导出到这些格式。
就像使用电脑可以打开和保存不同类型的文件一样，Pandas允许你从不同格式的文件中读取数据，进行处理和分析，然后再保存到所需的格式。

# 从CSV文件读取数据
data = pd.read_csv('data.csv')

# 将DataFrame保存到CSV文件
df.to_csv('output.csv')

这里，我们展示了如何使用Pandas从CSV文件中读取数据到DataFrame，以及如何将DataFrame保存到CSV文件中。

4.2.3 数据清洗和预处理

数据清洗和预处理包括处理缺失数据、去除重复数据、数据转换等，以确保数据质量和准确性。
数据清洗就像是准备食材前的清洁和切割工作，确保食材干净、新鲜并且适合烹饪。这一步骤对于后续的数据分析至关重要。

# 填充缺失值
df.fillna(0)

# 删除重复数据
df.drop_duplicates()

# 转换数据类型
df['Age'] = df['Age'].astype(float)

这段代码演示了如何填充DataFrame中的缺失值，删除重复的行，以及将某一列的数据类型从整型转换为浮点型。

4.3 基础数据可视化

数据可视化是数据分析的一个重要方面，可以帮助理解数据的分布、趋势和关系。

4.3.1 使用Matplotlib绘图

Matplotlib是一个Python绘图库，提供了丰富的绘图工具，可以创建静态、动态和交互式的图表。
Matplotlib就像是一个画家的工具箱，里面有各种画笔和颜料，可以用来绘制各种图表和视觉化图形，从简单的线条图到复杂的三维图形都可以。

import matplotlib.pyplot as plt

# 创建简单的线形图
plt.plot([1, 2, 3, 4], [1, 4, 9, 16])
plt.ylabel('Y Numbers')
plt.xlabel('X Numbers')
plt.title('Simple Line Plot')
plt.show()

这段代码使用Matplotlib绘制了一个简单的线形图，其中X轴的数据是[1, 2, 3, 4]，Y轴的数据是[1, 4, 9, 16]。通过plt.show()函数，图表会展示出来，展示了X和Y数据之间的关系。

4.3.2 使用Seaborn进行统计数据可视化

Seaborn是基于Matplotlib的Python数据可视化库，提供了一种高级接口，用于创建吸引人的统计图形。
如果Matplotlib是一套画家的基础工具，那么Seaborn就像是这套工具中的“魔法棒”，它让创建美观的统计图表变得更加容易和直观。

import seaborn as sns
import pandas as pd

# 使用Pandas创建一个示例DataFrame
data = pd.DataFrame({
    'X': range(1, 6),
    'Y': [10, 23, 13, 18, 45]
})

# 使用Seaborn绘制条形图
sns.barplot(x='X', y='Y', data=data)
plt.title('Bar Plot with Seaborn')
plt.show()

在这个例子中，我们首先使用Pandas创建了一个包含X和Y值的DataFrame。然后，使用Seaborn的barplot函数创建了一个条形图，直观地展示了X值和Y值之间的关系。

恭喜您完成了Python数据处理的学习！本章带您深入了解了NumPy和Pandas，这两个强大的库让您能够高效地处理数值和表格数据。我们还探索了如何使用Matplotlib和Seaborn进行数据可视化，帮助您更好地理解和展示数据。这些工具和技能是数据分析和科学计算领域的基石，为您未来解决更多复杂问题打下了坚实的基础。

code_magic

关注

19
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
Python学习之旅(四) 数据处理基础

本章带您深入了解了NumPy和Pandas，这两个强大的库让您能够高效地处理数值和表格数据。我们还探索了如何使用Matplotlib和Seaborn进行数据可视化，帮助您更好地理解和展示数据。这些工具和技能是数据分析和科学计算领域的基石，为您未来解决更多复杂问题打下了坚实的基础。
复制链接

扫一扫