电费敏感数据挖掘三: 构建低敏用户模型

本文介绍了如何通过XGBoost构建一个电费敏感数据的低敏用户模型。首先,读取了包含400075条训练数据(正样本13139,负样本386936)和326167条测试数据。接着,基于选定的词汇创建了tf-idf,构建了模型输入,其中包括341维的文本特征和85维的其他特征,总特征数为426。最后,应用XGBoost进行训练,并保存了最终的预测结果。
摘要由CSDN通过智能技术生成

电费敏感数据挖掘一: 数据处理与特征工程
电费敏感数据挖掘二: 文本特征构造

六. 构建XGBoost模型

6.1 读取特征

import pandas as pd
import numpy as np
import pickle
from scipy.sparse import csc_matrix
from sklearn.feature_extraction.text import TfidfVectorizer
import xgboost as xgb
from scipy.sparse import hstack

df = pickle.load(open(r'..\电费\statistical_features_1.pkl', 'rb'))
text = pickle.load(open(r'..\电费\text_features_1.pkl', 'rb'))
df = df.merge(text, on = 'CUST_NO', how = 'left')

train = df.loc[df.label != -1]
test = df.loc[df.label == -1]
print('训练集:',train.shape[0])
print('正样本:',train.loc[train.label == 1].shape[0])
print('负样本:',train.loc[train.label == 0].shape[0
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值