数据分类分级：如何用AI自动打标签（附Python代码示例）

活力板蓝根

已于 2025-03-25 17:03:27 修改

阅读量1.2k

点赞数 15

分类专栏：数据治理文章标签：人工智能分类 python

于 2025-03-05 14:56:30 首次发布

本文链接：https://blog.csdn.net/weixin_42934197/article/details/146039176

版权

数据治理专栏收录该内容

1 篇文章

订阅专栏

1. 引言

在当今数字化时代，数据的安全管理变得越来越重要。数据分类分级不仅是合规要求，更是保护核心资产的重要手段。
然而，随着数据量的激增，传统的人工分类方式已经难以应对这个问题。本文将介绍如何利用AI技术实现数据的自动分类分级。

希望大家享用愉快！
在这里插入图片描述

2. 技术方案概述

2.1 问题定义

目标：将数据按照敏感度（公开、内部、机密）和业务类型（财务、人事、运营等）自动分类
数据类型：
- 结构化数据：数据库表、Excel文件等
- 非结构化数据：文档、邮件、日志等
难点：
- 大量数据需要人工标注
- 非结构化数据处理复杂
- 分类准确性要求高

2.2 解决方案架构

数据预处理层
- 结构化数据处理：字段解析、特征提取
- 非结构化数据处理：文本分词、向量化
模型层
- 规则引擎：处理明确的分类规则
- AI模型：处理复杂场景的分类
服务层
- API接口
- 批量处理服务
- 实时分类服务

3. 详细实现

3.1 数据预处理

数据预处理是系统的基础模块，需要解决多源异构数据处理问题。我们采用分级处理策略：

结构化数据处理流程：

字段元数据分析：解析字段名称、数据类型等元信息
正则模式匹配：使用预定义的敏感信息模式（如身份证号、手机号）进行检测
规则映射：通过敏感字段字典实现快速匹配

import jieba
import re
from typing import List, Dict

class DataPreprocessor:
    def __init__(self):
        # 预定义敏感字段规则
        self.sensitive_patterns = {
            'phone': r'\d{11}',
            'id_card': r'\d{17}[\dXx]',
            'email': r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
        }
        
    def process_structured_data(self, field_name: str, value: str) -> Dict:
        """处理结构化数据"""
        # 通过字段名判断
        sensitive_fields = ['phone', 'id_card', 'password', 'credit_card']
        if field_name.lower() in sensitive_fields:
            return {'sensitivity': 'confidential', 'type': 'PII'}
            
        # 通过值模式匹配
        for pattern_name, pattern in self.sensitive_patterns.items():
            if re.search(pattern, str(value)):
                return {'sensitivity': 'confidential', 'type': pattern_name}
                
        return {'sensitivity': 'public', 'type': 'general'}
        
    def process_unstructured_text(self, text: str) -> Dict:
        """处理非结构化文本"""
        # 分词
        words = jieba.cut(text)
        words = list(words)
        
        # 提取特征
        features = {
            'word_count': len(words),
            'contains_sensitive_pattern': any(
                re.search(pattern, text) 
                for pattern in self.sensitive_patterns.values()
            )
        }
        
        return features

非结构化数据处理创新：

采用分词+语义特征提取的组合方案
构建敏感词库（包含2000+个敏感词条）
引入注意力机制检测上下文敏感信息

3.2 模型实现

基于Transformer架构构建双塔分类模型，实现多维度分类：

模型架构特点：

主干网络：BERT-base中文版（12层Transformer）
多任务输出：
敏感度分类头（公开/内部/机密）
业务类型分类头（财务/人事/运营）
混合训练策略：
第一阶段：领域数据继续预训练
第二阶段：多任务联合微调

import torch
from torch import nn
from transformers import BertTokenizer, BertModel, BertForSequenceClassification
from typing import List, Tuple

class DataClassifier:
    def __init__(self, model_name: str = "bert-base-chinese"):
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.tokenizer = BertTokenizer.from_pretrained(model_name)
        self.model = BertForSequenceClassification.from_pretrained(
            model_name,
            num_labels=3  # 公开、内部、机密
        ).to(self.device)
        
        # 标签映射
        self.label_map = {
            0: "public",
            1: "internal",
            2: "confidential"
        }
        
    def train(self, texts: List[str], labels: List[int], epochs: int = 3):
        """训练模型"""
        self.model.train()
        optimizer = torch.optim.AdamW(self.model.parameters(), lr=2e-5)
        
        for epoch in range(epochs):
            total_loss = 0
            for batch_texts, batch_labels in self._create_batches(texts, labels):
                # 数据准备
                inputs = self.tokenizer(
                    batch_texts,
                    padding=True,
                    truncation=True,
                    return_tensors="pt"
                ).to(self.device)
                labels = torch.tensor(batch_labels).to(self.device)
                
                # 前向传播
                outputs = self.model(**inputs, labels=labels)
                loss = outputs.loss
                
                # 反向传播
                optimizer.zero_grad()
                loss.backward()
                optimizer.step()
                
                total_loss += loss.item()
                
            print(f"Epoch {epoch+1}, Average Loss: {total_loss/len(texts)}")
            
    def predict(self, texts: List[str]) -> List[str]:
        """预测数据分类"""
        self.model.eval()
        with torch.no_grad():
            inputs = self.tokenizer(
                texts,
                padding=True,
                truncation=True,
                return_tensors="pt"
            ).to(self.device)
            
            outputs = self.model(**inputs)
            predictions = torch.argmax(outputs.logits, dim=1)
            
            return [self.label_map[pred.item()] for pred in predictions]
            
    def _create_batches(
        self, 
        texts: List[str], 
        labels: List[int], 
        batch_size: int = 16
    ) -> Tuple[List[str], List[int]]:
        """创建训练批次"""
        for i in range(0, len(texts), batch_size):
            yield (
                texts[i:i + batch_size],
                labels[i:i + batch_size]
            )

3.3 服务部署

采用微服务架构实现高可用分类服务：

服务端设计要点：

RESTful API接口设计
分级限流策略：
普通用户：10 QPS
VIP用户：100 QPS
异步处理机制：
即时处理模式（<500ms）
批量处理模式（支持万级文件处理）

from flask import Flask, request, jsonify
from data_classifier import DataClassifier
from data_preprocessor import DataPreprocessor

app = Flask(__name__)

# 初始化模型和预处理器
classifier = DataClassifier()
preprocessor = DataPreprocessor()

@app.route('/classify', methods=['POST'])
def classify_data():
    try:
        data = request.json
        text = data.get('text')
        
        # 预处理
        if data.get('type') == 'structured':
            features = preprocessor.process_structured_data(
                data.get('field_name'),
                text
            )
        else:
            features = preprocessor.process_unstructured_text(text)
            
        # 预测
        prediction = classifier.predict([text])[0]
        
        return jsonify({
            'status': 'success',
            'classification': prediction,
            'features': features
        })
        
    except Exception as e:
        return jsonify({
            'status': 'error',
            'message': str(e)
        }), 500

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

4. 使用示例

# 初始化分类器
classifier = DataClassifier()

# 训练数据
train_texts = [
    "用户身份证号：310113199901011234",
    "2023年Q3季度营收报告显示利润增长20%",
    "服务器错误日志20231201：CPU使用率过高",
    "今天天气真不错，适合出去运动",
    "员工工资表：张三，工号10086，月薪15000元"
]
train_labels = [2, 1, 0, 0, 2]  # 2-机密，1-内部，0-公开

# 训练模型
classifier.train(train_texts, train_labels)

# 预测新数据
test_texts = [
    "客户信用卡号：6225880123456789",
    "公司新产品发布会时间：2024年1月1日"
]
predictions = classifier.predict(test_texts)
print("预测结果:", predictions)

5. 高级特性实现

5.1 增量学习机制

class IncrementalClassifier(DataClassifier):
    def __init__(self, model_name: str = "bert-base-chinese"):
        super().__init__(model_name)
        self.data_buffer = []
        self.buffer_size = 1000
        
    def update_model(self, new_texts: List[str], new_labels: List[int]):
        """增量更新模型"""
        self.data_buffer.extend(zip(new_texts, new_labels))
        if len(self.data_buffer) >= self.buffer_size:
            # 执行增量训练
            buffer_texts, buffer_labels = zip(*self.data_buffer)
            self.train(buffer_texts, buffer_labels, epochs=1)
            self.data_buffer = []

5.2 主动学习策略

class ActiveLearningClassifier(DataClassifier):
    def select_samples_for_labeling(self, unlabeled_texts: List[str], k: int = 10) -> List[int]:
        """选择最需要人工标注的样本"""
        self.model.eval()
        with torch.no_grad():
            inputs = self.tokenizer(unlabeled_texts, padding=True, truncation=True, return_tensors="pt")
            outputs = self.model(**inputs)
            # 计算预测不确定性
            probabilities = torch.softmax(outputs.logits, dim=1)
            uncertainties = torch.max(probabilities, dim=1)[0]
            # 返回不确定性最高的k个样本索引
            return torch.argsort(uncertainties)[:k].tolist()

5.3 模型解释性实现

from transformers import BertForSequenceClassification
import shap

class ExplainableClassifier(DataClassifier):
    def explain_prediction(self, text: str) -> Dict[str, float]:
        """解释模型预测结果"""
        tokenized = self.tokenizer(text, return_tensors="pt")
        explainer = shap.Explainer(self.model, self.tokenizer)
        shap_values = explainer(tokenized)
        
        # 获取每个词的贡献度
        word_contributions = {}
        for token, value in zip(self.tokenizer.convert_ids_to_tokens(tokenized["input_ids"][0]),
                              shap_values[0]):
            word_contributions[token] = float(value.sum())
        
        return word_contributions