Python从入门到精通秘籍十四

最新推荐文章于 2024-08-12 14:30:00 发布

西玥

最新推荐文章于 2024-08-12 14:30:00 发布

阅读量290

点赞数 8

分类专栏： Python专栏￥文章标签： python 开发语言 pandas

本文链接：https://blog.csdn.net/m0_63030819/article/details/136919978

版权

Python专栏￥专栏收录该内容

19 篇文章 7 订阅

订阅专栏

一、Python之数据准备

数据准备是数据分析和机器学习的重要步骤之一，它包括数据收集、数据清洗、数据转换等处理过程。以下是一个示例代码，演示了如何进行数据准备的常见操作：

import pandas as pd

# 读取数据
data = pd.read_csv("data.csv")

# 查看数据前几行
print(data.head())

# 检查数据缺失值
print(data.isnull().sum())

# 处理缺失值
data = data.fillna(0)

# 数据转换
data["date"] = pd.to_datetime(data["date"])
data["year"] = data["date"].dt.year
data["month"] = data["date"].dt.month

# 特征选择
selected_features = ["age", "income", "gender"]
data = data[selected_features]

# 数据标准化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

# 数据保存
data_scaled = pd.DataFrame(data_scaled, columns=selected_features)
data_scaled.to_csv("preprocessed_data.csv", index=False)

在上述代码中，我们使用pandas库来读取数据文件（这里假设为CSV格式）。通过调用read_csv()函数将数据加载到DataFrame对象中。然后，使用head()函数查看数据的前几行，以便快速了解数据的结构。

接下来，使用isnull().sum()函数检查数据中的缺失值，并统计每列的缺失值数量。使用fillna()函数将缺失值填充为特定的值（这里填充为0）。

然后，对数据进行转换操作。通过pd.to_datetime()函数将日期列转换为日期时间格式，进而提取出年份和月份。选择感兴趣的特征列，将其存储到新的DataFrame中。

接下来，使用sklearn库中的StandardScaler类，将选定的特征列进行标准化处理，确保数据具有相似的尺度。

最后，使用to_csv()函数将预处理后的数据保存为CSV文件。

这只是数据准备的一个基本示例，实际情况可能会更加复杂，根据具体需求进行相应的数据处理和转换操作。数据准备的步骤可以根据不同的场景和需求进行调整和扩展。

二、Python之生成折线图

生成折线图是使用Python进行数据可视化的常见任务之一。以下是一个示例代码，演示了如何使用matplotlib库生成一个简单的折线图：

import matplotlib.pyplot as plt

# x轴数据和y轴数据
x = [1, 2, 3, 4, 5]
y = [3, 6, 2, 7, 4]

# 创建折线图
plt.plot(x, y)

# 设置标题和坐标轴标签
plt.title('Line Chart')
plt.xlabel('X-axis')
plt.ylabel('Y-axis')

# 显示网格线
plt.grid(True)

# 显示图形
plt.show()

在上述代码中，我们首先导入了所需的matplotlib库。然后，定义了x轴和y轴的数据。接下来，使用plt.plot()函数创建了一个折线图，将x轴和y轴的数据作为参数传递给该函数。

然后，使用plt.title()、plt.xlabel()和plt.ylabel()函数设置图表的标题、x轴标签和y轴标签。

通过调用plt.grid(True)函数，可以显示网格线。

最后，使用plt.show()函数显示生成的折线图。

运行以上代码会弹出一个窗口显示生成的折线图，并可以进行交互式操作，例如放大、缩小、保存图像等。

除了matplotlib，还有其他Python库也可以用于生成折线图，如seaborn、plotly等。这些库提供了更多样式和功能的定制选项，可以根据具体需求选择适合的库。