基于逻辑回归的天猫优惠券使用情况预测

该文通过逻辑回归模型预测天猫用户优惠券使用情况,涉及数据预处理、特征选择、模型训练与评估,包括相关性分析、one-hot编码、模型预测与混淆矩阵、ROC曲线AUC值计算。
摘要由CSDN通过智能技术生成

文章目录

前言

一、数据预处理

二、变量选择

查看特征值与目标值之间的相关关系

​选取特征值

进行one-hot编码后目标值与特征值的相关关系

​查看类别型变量的所有类别及类别分布概率情况

对数值型变量绘制直方图 查看数据分布

将未进行独热编码的特征删除

三、建模(训练逻辑回归模型)

四、模型评估

查看预测结果

混淆矩阵及可视化

计算ROC曲线AUC值并可视化



前言

本文运用numpy,pandas库对相关数据进行处理,使用sklearn库基于机器学习中的逻辑回归方法对天猫优惠券的使用情况进行预测,最后用matplotlib和seaborn库进行可视化的展示。



一、数据预处理

数据字段说明

ID 记录编码

age 年龄

job 职业

marital 婚姻状态

default 花呗是否有违约

returned 是否有过退货

loan 是否使用花呗结账

coupon_used_in_last6_month 过去六个月使用的优惠券数量

coupon_used_in_last_month 过去一个月使用的优惠券数量

coupon_ind 该次活动中是否有使用优惠券

#导入要使用的模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
import seaborn as sns

#设置正常显示中文和负号
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']
#⽤来正常显示中⽂标签
plt.rcParams['axes.unicode_minus'] = False
#⽤来正常显示负号 #有中⽂出现的情况,需要u'内容'

#设置输出全部结果 而非只有最后一个
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
#导入数据
data = pd.read_csv('/基于逻辑回归的天猫优惠券使用情况预测/L2_Week3.csv')

#查看数据
data.head()

#查看数据是否为空值
data.isnull().sum()

#coupon_ind为要预测的目标值
#查看目标值的分布情况
data['coupon_ind'].value_counts(1)

二、变量选择

查看特征值与目标值之间的相关关系

#查看特征值与目标值的相关关系
#进行one—hot编码前
sns.heatmap(data.corr()[['coupon_ind']])

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值