python 使用正负样本通过autogulon自动机器学习,对全量数据进行分类预测

该项目涉及使用Python进行正负样本训练,通过AutoGluon自动机器学习库建立分类模型。模型评估包括混淆矩阵、查重率、查准率和F1值。训练完成后,模型保存并应用于Clickhouse数据库中的全量数据,进行0、1类型的预测,并标注置信度。
摘要由CSDN通过智能技术生成

项目背景:

这是一个数据平台的需求,数据平台是java的后端,数据库是clickhouse,通过对正负样本训练,得到模型,之后通过模型对全量数据进行预测扩样。

项目任务:

我负责python的模型训练和输出模型的混淆矩阵的参数,还有查重率,查准率,和f1值来评估模型好坏,之后将模型保存起来,数据存入到clickhouse,之后全量数据进来后通过最优model进行预测,对全量数据表进行0,1类型划分,并且标明置信度,将这些存到表中,之后就是java大哥的事情了

工作流程:

首先java那边给到我正负样本数据,之后我们通过这些数据进行模型的训练,得到模型的评估参数

这里是第一部分的代码

用到了autogulon自动机器学习,还有一些sklearn的函数,可以生成混淆矩阵的值和f1值,其实代码看着很多,dataframe的操作有很多。重要的还是一些关于评估参数和训练的过程中的学习,在这里给大家普及一下一些个混淆矩阵的参数意义:

混淆矩阵怎么看_分类模型评判指标--混淆矩阵_weixin_39613744的博客-CSDN博客

import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import xgboost as xgb
from sklearn import metrics
from sklearn.cluster import DBSCAN
from sklearn.decomposition import LatentDirichletAllocation, NMF, TruncatedSVD
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics import f1_score, fbeta_score, precision_score, recall_score, roc_auc_score
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import LabelEncoder
from tqdm import tqdm
import warnings
from datetime import datetime
i
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值