天猫优惠券使用情况预测的逻辑回归分析
背景
基于25317条天猫用户的基本特征、行为信息,使用python分析使用优惠券消费行为特征,并建立逻辑回归模型进行预测。
分析思路
数据展示
#导入要使用的模块
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
import seaborn as sns
from sklearn import metrics
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False
df=pd.read_csv(r'D:L2_Week3.csv')
df.head()
#查看数据是否为空值
df.isnull().sum()
特征分析
类别型特征分析
#coupon_ind为要预测的目标值
#查看目标值的分布情况
df['coupon_ind'].value_counts(1)
df.job.value_counts(1) # 各职业占比
df.marital.value_counts(1) #婚姻状况比例
df.loan.value_counts(1) #花呗使用占比
df.default.value_counts(1) #花呗违约占比
df.returned.value_counts(1) # 退货情况占比
df.coupon_ind.value_counts(1) #优惠券使用占比
总结:
用户群体主要职业分布主要包括管理者、蓝领工人、技术人员、决策者、和服务人员。
已婚人群占比最大为60%。
16%的客户使用花呗进行购物。
在使用花呗的群体中,不到2%有过违约记录。
超过55%的用户有过退货记录。
优惠券使用率为12%。
数值型特征分析
df.describe()
# 年龄分布直方图
df.age.hist