天猫优惠券使用情况预测的逻辑回归分析

该博客分析了25317条天猫用户数据,通过逻辑回归预测优惠券使用情况。用户群体以管理者、蓝领、技术人员为主,已婚用户占60%,优惠券使用率为12%。模型建立后,初始AUC值0.502,优化后提升至0.652。
摘要由CSDN通过智能技术生成

天猫优惠券使用情况预测的逻辑回归分析

背景

基于25317条天猫用户的基本特征、行为信息,使用python分析使用优惠券消费行为特征,并建立逻辑回归模型进行预测。

分析思路

在这里插入图片描述

数据展示

#导入要使用的模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import  train_test_split
from sklearn.metrics import r2_score
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
import seaborn as sns
from sklearn import metrics
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
df=pd.read_csv(r'D:L2_Week3.csv')
df.head()

在这里插入图片描述

#查看数据是否为空值
df.isnull().sum()

特征分析

类别型特征分析

#coupon_ind为要预测的目标值
#查看目标值的分布情况
df['coupon_ind'].value_counts(1)

在这里插入图片描述

df.job.value_counts(1)  # 各职业占比

在这里插入图片描述

df.marital.value_counts(1)   #婚姻状况比例

在这里插入图片描述

df.loan.value_counts(1)  #花呗使用占比

在这里插入图片描述

df.default.value_counts(1)   #花呗违约占比

在这里插入图片描述

df.returned.value_counts(1)  # 退货情况占比

在这里插入图片描述

df.coupon_ind.value_counts(1)  #优惠券使用占比

在这里插入图片描述
总结:
用户群体主要职业分布主要包括管理者、蓝领工人、技术人员、决策者、和服务人员。
已婚人群占比最大为60%。
16%的客户使用花呗进行购物。
在使用花呗的群体中,不到2%有过违约记录。
超过55%的用户有过退货记录。
优惠券使用率为12%。

数值型特征分析

df.describe()

在这里插入图片描述

# 年龄分布直方图
df.age.hist
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值