python 使用正负样本通过autogulon自动机器学习，对全量数据进行分类预测

最新推荐文章于 2024-02-16 14:31:23 发布

苦中自渡

最新推荐文章于 2024-02-16 14:31:23 发布

阅读量942

点赞数

分类专栏：大数据开发文章标签： python 机器学习分类

本文链接：https://blog.csdn.net/demondss/article/details/125890798

版权

该项目涉及使用Python进行正负样本训练，通过AutoGluon自动机器学习库建立分类模型。模型评估包括混淆矩阵、查重率、查准率和F1值。训练完成后，模型保存并应用于Clickhouse数据库中的全量数据，进行0、1类型的预测，并标注置信度。

摘要由CSDN通过智能技术生成

项目背景：

这是一个数据平台的需求，数据平台是java的后端，数据库是clickhouse，通过对正负样本训练，得到模型，之后通过模型对全量数据进行预测扩样。

项目任务：

我负责python的模型训练和输出模型的混淆矩阵的参数，还有查重率，查准率，和f1值来评估模型好坏，之后将模型保存起来，数据存入到clickhouse，之后全量数据进来后通过最优model进行预测，对全量数据表进行0，1类型划分，并且标明置信度，将这些存到表中，之后就是java大哥的事情了

工作流程：

首先java那边给到我正负样本数据，之后我们通过这些数据进行模型的训练，得到模型的评估参数

这里是第一部分的代码

用到了autogulon自动机器学习，还有一些sklearn的函数，可以生成混淆矩阵的值和f1值，其实代码看着很多，dataframe的操作有很多。重要的还是一些关于评估参数和训练的过程中的学习，在这里给大家普及一下一些个混淆矩阵的参数意义：

混淆矩阵怎么看_分类模型评判指标--混淆矩阵_weixin_39613744的博客-CSDN博客

import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import xgboost as xgb
from sklearn import metrics
from sklearn.cluster import DBSCAN
from sklearn.decomposition import LatentDirichletAllocation, NMF, TruncatedSVD
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics import f1_score, fbeta_score, precision_score, recall_score, roc_auc_score
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import LabelEncoder
from tqdm import tqdm
import warnings
from datetime import datetime
i