驯服数据分类巨兽：C#与ML.NET实战——从0到1构建超能多类分类器-CSDN博客

本文链接：https://blog.csdn.net/2401_88677290/article/details/147372609

C#与ML.NET的多类分类实战

1. 环境配置与数据准备

1.1 安装ML.NET核心包

// 在NuGet Package Manager中安装  
Install-Package Microsoft.ML  
Install-Package Microsoft.ML.DataView  
Install-Package Microsoft.ML.TensorFlow // 仅需在图像分类时安装

1.2 数据集准备
使用GitHub问题分类数据集（issues_train.tsv和issues_test.tsv），数据格式示例：

Title	Description	Label  
"Cannot build project"	"Getting errors when trying to compile."	"Build"  
"UI freeze on login"	"Application freezes when entering credentials."	"UI"

代码：定义数据类与路径

using Microsoft.ML;  
using Microsoft.ML.Data;  

public class GitHubIssue  
{  
    [LoadColumn(0)] // 标题列  
    public string Title { get; set; }  

    [LoadColumn(1)] // 描述列  
    public string Description { get; set; }  

    [LoadColumn(2), ColumnName("Label")] // 标签列（目标变量）  
    public string Area { get; set; }  
}  

public class IssuePrediction  
{  
    [ColumnName("PredictedLabel")] // 预测结果  
    public string Area { get; set; }  

    [ColumnName("Score")] // 各类别概率  
    public float[] Scores { get; set; }  
}  

// 数据路径配置  
string _appPath = Path.GetDirectoryName(Environment.GetCommandLineArgs()[0]) ?? ".";  
string _trainDataPath = Path.Combine(_appPath, "..", "..", "..", "Data", "issues_train.tsv");  
string _testDataPath = Path.Combine(_appPath, "..", "..", "..", "Data", "issues_test.tsv");  
string _modelPath = Path.Combine(_appPath, "..", "..", "..", "Models", "model.zip");

2. 特征工程：让数据开口说话

2.1 数据加载与预处理

MLContext _mlContext = new MLContext();  

// 加载训练数据  
IDataView trainingData = _mlContext.Data.LoadFromTextFile<GitHubIssue>(  
    path: _trainDataPath,  
    separatorChar: '\t', // TSV格式  
    hasHeader: true);  

// 预处理步骤：文本特征提取  
var dataProcessPipeline = _mlContext.Transforms.Text.FeaturizeText(  
    outputColumnName: "Features", // 合并文本特征  
    inputColumns: new[] { "Title", "Description" })  
    .Append(_mlContext.Transforms.Conversion.MapValueToKey(  
        outputColumnName: "Label", // 将文本标签转为数值  
        inputColumnName: "Area"));

关键注释：

FeaturizeText：将文本转换为数值向量（TF-IDF等）。
MapValueToKey：将分类标签（如"Build"）映射为数值（如0、1、2）。

3. 模型构建与训练

3.1 选择多类分类算法

// 选择SDCA多类分类器（支持大规模数据）  
var trainer = _mlContext.MulticlassClassification.Trainers.SdcaNonCalibrated();  

// 组合数据处理和训练管道  
var trainingPipeline = dataProcessPipeline.Append(trainer);  

// 开始训练  
ITransformer trainedModel = trainingPipeline.Fit(trainingData);

算法选择理由：

SDCA（随机双坐标下降算法）：适合高维稀疏数据，收敛速度快。
替代方案：LbfgsMaximumEntropy（逻辑回归多类版）或LightGbm（梯度提升树）。

4. 模型评估与优化

4.1 评估模型性能

// 加载测试数据  
IDataView testData = _mlContext.Data.LoadFromTextFile<GitHubIssue>(  
    path: _testDataPath,  
    separatorChar: '\t',  
    hasHeader: true);  

// 预测  
IDataView predictions = trainedModel.Transform(testData);  

// 计算评估指标  
var metrics = _mlContext.MulticlassClassification.Evaluate(predictions);  

Console.WriteLine($"MacroAccuracy: {metrics.MacroAccuracy:P2}"); // 加权平均准确率  
Console.WriteLine($"MicroAccuracy: {metrics.MicroAccuracy:P2}"); // 全局准确率  
Console.WriteLine($"LogLoss: {metrics.LogLoss:F4}"); // 概率预测质量  
Console.WriteLine($"LogLossReduction: {metrics.LogLossReduction:F4}"); // 相对于基线的改进

指标解读：

MacroAccuracy：每个类别的平均准确率，适合类别不平衡场景。
LogLoss：越低越好，反映模型对概率的自信程度。

5. 模型部署与预测

5.1 保存并加载模型

// 保存模型  
_mlContext.Model.Save(trainedModel, trainingData.Schema, _modelPath);  

// 后续加载模型  
ITransformer loadedModel = _mlContext.Model.Load(_modelPath, out _);

5.2 实时预测示例

// 创建预测引擎  
var predictionEngine = _mlContext.Model.CreatePredictionEngine<GitHubIssue, IssuePrediction>(loadedModel);  

// 输入新问题  
var newIssue = new GitHubIssue  
{  
    Title = "App crashes on startup",  
    Description = "The application exits immediately after launching."  
};  

// 获取预测结果  
var prediction = predictionEngine.Predict(newIssue);  

Console.WriteLine($"Predicted Area: {prediction.Area}");  
Console.WriteLine($"Confidence Scores:");  
foreach (var score in prediction.Scores)  
{  
    Console.WriteLine($"Score: {score:F2}"); // 各类别的概率  
}

6. 高级技巧：性能与扩展

6.1 处理类别不平衡

// 使用加权损失函数  
trainer.SetWeightColumnName("Weight"); // 需先为数据添加权重列

6.2 自定义特征工程

// 自定义文本处理（如TF-IDF）  
var textFeaturizer = _mlContext.Transforms.Text.TfIdf(  
    outputColumnName: "TFIDFFeatures",  
    inputColumnName: "Description");

6.3 实时流式预测

// 使用PredictionEnginePool优化性能  
var pool = _mlContext.Model.CreatePredictionEnginePool<GitHubIssue, IssuePrediction>(loadedModel);  
var prediction = pool.Predict(newIssue);