[数据处理] 1. 数据处理流程-CSDN博客

本文链接：https://blog.csdn.net/ayiya_Oese/article/details/147741854

人工智能

数据处理流程

在深度学习中，数据是模型的“燃料”，其质量直接决定了模型性能的上限。本文将结合数学原理、工程实践与可视化分析，系统梳理数据处理的关键环节。

一、数据准备

1. 数据收集

分布一致性假设（i.i.d）：

$P(X_{train}) ≈ P(X_{test}) ≈ P(X_{real})$

数据应具有代表性，确保训练、测试与实际应用场景的分布一致性。
常见数据源对比：

数据源类型	优点	缺点	适用场景
公开数据集	标注规范、即用性强	与目标场景可能存在差异	算法验证、初期原型
模拟数据	可控性强、快速生成	难以拟合真实分布	构建边界测试样本
实地采集	分布贴近真实场景	成本高、周期长	模型上线部署

2. 数据清洗

缺失值处理方法：
- 删除法：适用于缺失比例 < 5%
- 插值法：如线性插值：
  
  $x_t = x_{t-1} + \frac{(x_{t+1}-x_{t-1})}{2}$
- 模型预测法：使用如随机森林等机器学习模型进行补全：
```
from sklearn.ensemble import IsolationForest

clf = IsolationForest(contamination=0.01)
outliers = clf.fit_predict(data)
clean_data = data[outliers == 1]
```

3. 数据标注质量控制

评估维度	指标	含义	常见度量
准确性	Accuracy	标注与真实标签一致的比例	与 GT 比对
一致性	IAA	多标注员间的一致性	Kappa/Fleiss’ k
完整性	Completeness	是否遗漏应标注内容	Recall
正确性	Correctness	标注内容是否准确	Precision
模糊性	Ambiguity Rate	含模糊/不确定性标注比例	模糊数 / 总数
效率	Annotation Speed	单样本平均标注时间	秒/样本
审核通过率	Review Pass Rate	质检通过比例	通过数 / 审核样本数
质检覆盖率	QA Coverage	审核样本占比	审核样本数 / 总样本数

4. 数据预处理

图像归一化：

$\frac{x - \mu}{\sigma}$

其中 $\mu$ 为均值， $\sigma$ 为标准差。
文本向量化（TF-IDF）：

$\text{TF-IDF}(t,d) = \text{TF}(t,d) \times \log\left(\frac{N}{\text{DF}(t)}\right)$

二、数据读取

1. PyTorch数据加载流程

import torch
from torchvision import transforms

class CustomDataset(torch.utils.data.Dataset):
    def __init__(self, data, transform=None):
        self.data = data
        self.transform = transform

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        sample = self.data[idx]
        if self.transform:
            sample = self.transform(sample)
        return sample

# 数据管道构建
dataset = CustomDataset(data, transform=transforms.ToTensor())
dataloader = torch.utils.data.DataLoader(
    dataset, 
    batch_size=64, 
    num_workers=4, 
    pin_memory=True, 
    shuffle=True
)

2. 性能优化策略

多线程/多进程并行加载机制：

内存映射与HDF5加速：

import h5py

with h5py.File('data.hdf5', 'r') as f:
    dataset = f['images']
    batch = dataset[0:64]  # 无需加载全部至内存

三、数据增强

1. 图像增强：仿射变换

通用仿射变换矩阵：

$\begin{bmatrix} x' \\ y' \\ 1 \end{bmatrix} = \begin{bmatrix} s\cos\theta & -s\sin\theta & t_x \\ s\sin\theta & s\cos\theta & t_y \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} x \\ y \\ 1 \end{bmatrix}$
Albumentations示例：

import albumentations as A

transform = A.Compose([
    A.RandomRotate90(),
    A.Cutout(num_holes=8, max_h_size=8, max_w_size=8),
    A.RandomGamma(gamma_limit=(80,120)),
    A.GaussNoise(var_limit=(10,50)),
])

augmented = transform(image=image)['image']

2. 文本增强：语义保持与上下文挖掘

回译增强（多语种）流程：
上下文补全示例：

from transformers import BertForMaskedLM, BertTokenizer

model = BertForMaskedLM.from_pretrained('bert-base-chinese')
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')

text = "这家餐厅的菜品非常美味"
masked_text = "这家餐厅的菜品非常[MASK]"

inputs = tokenizer(masked_text, return_tensors='pt')
outputs = model(**inputs)
predictions = outputs.logits.argmax(-1)
new_word = tokenizer.decode(predictions[0, 8])  # 示例输出：可口、丰富等

四、数据质量评估

1. 分布可视化

import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(12, 6))
sns.set(style="whitegrid")

# 类别分布
plt.subplot(1, 2, 1)
sns.countplot(x='class', data=df)
plt.title('Class Distribution')

# 特征分布
plt.subplot(1, 2, 2)
sns.histplot(df['feature'], kde=True)
plt.title('Feature Distribution')

plt.tight_layout()
plt.show()

2. 数据质量指标

指标	公式	理想范围
类别平衡度	$\frac{\min(n\_i)}{\max(n\_i)}$	> 0.7
特征缺失率	$\frac{\text{缺失数}}{\text{总样本数}}$	< 5%
标注一致性	Cohen’s Kappa	> 0.8