【深度学习】数据预处理

最新推荐文章于 2025-07-25 17:59:32 发布

原创

最新推荐文章于 2025-07-25 17:59:32 发布 · 909 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

为了能用深度学习来解决现实世界的问题，我们经常从预处理原始数据开始，
而不是从那些准备好的张量格式数据开始。
在Python中常用的数据分析工具中，我们通常使用pandas软件包。
像庞大的Python生态系统中的许多其他扩展包一样，pandas可以与张量兼容。
本节我们将简要介绍使用pandas预处理原始数据，并将原始数据转换为张量格式的步骤。
后续将介绍更多的数据预处理技术。

读取数据集

举一个例子，我们首先(创建一个人工数据集，并存储在CSV（逗号分隔值）文件)../data/house_tiny.csv中。
以其他格式存储的数据也可以通过类似的方式进行处理。下面我们将数据集按行写入CSV文件中。

下面先简单介绍一下CSV文件

CSV（Comma-Separated Values）文件，即逗号分隔值文件，是一种常见的简单文件格式，用于存储表格数据。

 特点和用途

- **简单易读**：CSV 文件以纯文本形式存储表格数据，每行数据表示一条记录，**字段之间用逗号分隔**（也可以使用其他字符如分号等作为分隔符，但逗号是最常见的）。
- **广泛支持**：几乎所有的电子表格软件（如Microsoft Excel、Google Sheets等）和数据分析工具（如Python的pandas库、R语言等）都支持CSV文件的读取和写入，使其成为数据交换的通用格式。
- **数据存储和传输**：常用于在不同系统和软件之间传输和存储数据，例如从数据库中导出数据、在网站上提供数据下载等。


CSV文件因其简单性和通用性，在数据处理和分析领域中被广泛应用，是数据存储和交换的重要格式之一。

import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..',

最低0.47元/天解锁文章

200万优质内容无限畅学