电费敏感数据挖掘三: 构建低敏用户模型

最新推荐文章于 2023-03-12 15:41:24 发布

弎见

最新推荐文章于 2023-03-12 15:41:24 发布

阅读量808

点赞数

分类专栏：数据挖掘文章标签：机器学习数据挖掘 XGBoost python 文本特征

本文链接：https://blog.csdn.net/sanjianjixiang/article/details/105963890

版权

本文介绍了如何通过XGBoost构建一个电费敏感数据的低敏用户模型。首先，读取了包含400075条训练数据（正样本13139，负样本386936）和326167条测试数据。接着，基于选定的词汇创建了tf-idf，构建了模型输入，其中包括341维的文本特征和85维的其他特征，总特征数为426。最后，应用XGBoost进行训练，并保存了最终的预测结果。

摘要由CSDN通过智能技术生成

电费敏感数据挖掘一: 数据处理与特征工程
电费敏感数据挖掘二: 文本特征构造

六. 构建XGBoost模型

6.1 读取特征

import pandas as pd
import numpy as np
import pickle
from scipy.sparse import csc_matrix
from sklearn.feature_extraction.text import TfidfVectorizer
import xgboost as xgb
from scipy.sparse import hstack

df = pickle.load(open(r'..\电费\statistical_features_1.pkl', 'rb'))
text = pickle.load(open(r'..\电费\text_features_1.pkl', 'rb'))
df = df.merge(text, on = 'CUST_NO', how = 'left')

train = df.loc[df.label != -1]
test = df.loc[df.label == -1]
print('训练集：',train.shape[0])
print('正样本:',train.loc[train.label == 1].shape[0])
print('负样本:',train.loc[train.label == 0].shape[0

最低0.47元/天解锁文章

弎见

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
电费敏感数据挖掘三: 构建低敏用户模型

电费敏感数据挖掘一: 数据处理与特征工程电费敏感数据挖掘二: 文本特征构造目录:六. 构建XGBoost模型6.1 读取特征6.2 基于选择的词来创建tf-idf，构建模型输入数据6.3 XGBoost七. 保存最终预测六. 构建XGBoost模型6.1 读取特征import pandas as pdimport numpy as npimport picklefrom scipy...
复制链接

扫一扫