【深度学习】数据预处理

为了能用深度学习来解决现实世界的问题,我们经常从预处理原始数据开始,
而不是从那些准备好的张量格式数据开始。
在Python中常用的数据分析工具中,我们通常使用pandas软件包。
像庞大的Python生态系统中的许多其他扩展包一样,pandas可以与张量兼容。
本节我们将简要介绍使用pandas预处理原始数据,并将原始数据转换为张量格式的步骤。
后续将介绍更多的数据预处理技术。

读取数据集

举一个例子,我们首先(创建一个人工数据集,并存储在CSV(逗号分隔值)文件)../data/house_tiny.csv中。
以其他格式存储的数据也可以通过类似的方式进行处理。下面我们将数据集按行写入CSV文件中。

下面先简单介绍一下CSV文件

CSV(Comma-Separated Values)文件,即逗号分隔值文件,是一种常见的简单文件格式,用于存储表格数据。

 特点和用途

- **简单易读**:CSV 文件以纯文本形式存储表格数据,每行数据表示一条记录,**字段之间用逗号分隔**(也可以使用其他字符如分号等作为分隔符,但逗号是最常见的)。
- **广泛支持**:几乎所有的电子表格软件(如Microsoft Excel、Google Sheets等)和数据分析工具(如Python的pandas库、R语言等)都支持CSV文件的读取和写入,使其成为数据交换的通用格式。
- **数据存储和传输**:常用于在不同系统和软件之间传输和存储数据,例如从数据库中导出数据、在网站上提供数据下载等。


CSV文件因其简单性和通用性,在数据处理和分析领域中被广泛应用,是数据存储和交换的重要格式之一。
import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 
### 深度学习中的数据预处理 #### 数据预处理的重要性 在深度学习领域,数据预处理是一项关键技术,能够帮助将原始数据转化为有效的特征表示形式,从而提升模型训练效果和推理能力[^1]。 #### 中文NLP任务的数据预处理流程 对于自然语言处理(NLP),特别是针对中文的任务而言,其典型的数据预处理过程涵盖了多个方面: - **数据清洗**:去除无关字符或格式错误的内容; - **分词**:按照语义单位切分句子成词语序列; - **停用词过滤**:移除那些频繁出现但对理解文本意义贡献较小的词汇; - **词性标注**:给每个单词标记上对应的语法角色标签; - **实体识别**:定位并分类特定类型的命名实体(如人名、地点等); - **词向量化**:把文字信息映射到数值空间内便于计算的形式; 这些环节共同作用以优化输入至神经网络结构前后的文本质量[^2]。 #### 图像预处理及其白化技术的应用 当涉及到计算机视觉应用时,则需特别关注图像本身的特性调整工作。其中一项广泛应用的技术叫做“图像白化”,即通过执行某种线性的转换操作使得不同通道间像素值分布趋于独立同分布状态,进而减少不必要的关联噪声干扰项影响最终预测准确性[^3]。 ```python import numpy as np from sklearn.preprocessing import StandardScaler def apply_whitening(image_data): scaler = StandardScaler().fit(image_data.reshape(-1, image_data.shape[-1])) whitened_images = scaler.transform(image_data.reshape(-1, image_data.shape[-1])).reshape(image_data.shape) return whitened_images ``` 上述代码展示了如何利用`sklearn`库实现简单的图像标准化/白化功能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值