天猫优惠券使用情况预测的逻辑回归分析_天猫优惠券数据分析-CSDN博客

本文链接：https://blog.csdn.net/qq_48201996/article/details/108348529

该博客分析了25317条天猫用户数据，通过逻辑回归预测优惠券使用情况。用户群体以管理者、蓝领、技术人员为主，已婚用户占60%，优惠券使用率为12%。模型建立后，初始AUC值0.502，优化后提升至0.652。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

天猫优惠券使用情况预测的逻辑回归分析

背景

基于25317条天猫用户的基本特征、行为信息，使用python分析使用优惠券消费行为特征，并建立逻辑回归模型进行预测。

分析思路

在这里插入图片描述

数据展示

#导入要使用的模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import  train_test_split
from sklearn.metrics import r2_score
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
import seaborn as sns
from sklearn import metrics
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False

df=pd.read_csv(r'D:L2_Week3.csv')
df.head()

在这里插入图片描述

#查看数据是否为空值
df.isnull().sum()

特征分析

类别型特征分析

#coupon_ind为要预测的目标值
#查看目标值的分布情况
df['coupon_ind'].value_counts(1)

在这里插入图片描述

df.job.value_counts(1)  # 各职业占比

在这里插入图片描述

df.marital.value_counts(1)   #婚姻状况比例

在这里插入图片描述

df.loan.value_counts(1)  #花呗使用占比

在这里插入图片描述

df.default.value_counts(1)   #花呗违约占比

在这里插入图片描述

df.returned.value_counts(1)  # 退货情况占比

在这里插入图片描述

df.coupon_ind.value_counts(1)  #优惠券使用占比

在这里插入图片描述
总结：
用户群体主要职业分布主要包括管理者、蓝领工人、技术人员、决策者、和服务人员。
已婚人群占比最大为60%。
16%的客户使用花呗进行购物。
在使用花呗的群体中，不到2%有过违约记录。
超过55%的用户有过退货记录。
优惠券使用率为12%。

数值型特征分析

df.describe()

在这里插入图片描述

# 年龄分布直方图
df.age.hist