基于机器学习与统计检验分析用户行为关键因素

1.项目背景

在现代电子商务环境中,优化网站设计已成为提升用户参与度和增加销售转化率的关键因素。准确分析用户行为和偏好能够帮助企业制定更有针对性的设计和营销策略,降低客户流失,提高购买转化率,并增强用户体验。通过深入分析影响用户交互和购买行为的主要因素,可以帮助企业更好地理解用户需求,从而制定更有针对性的优化策略,提高整体网站的用户粘性和销售业绩。
本项目旨在探讨影响用户交互和购买行为的关键因素,并通过建立随机森林模型和XGBoost模型进行深入分析。研究结果将为优化网站设计提供重要参考,有助于提升在线书店的用户参与度和市场竞争力。

2.数据说明

字段说明
Theme显示主题,dark(深色);light(浅色)
Click Through Rate点击率:用户点击网站上链接或按钮的比例
Conversion Rate转化率:首次访问后在平台上注册的用户百分比
Bounce Rate弹出率:访问单个页面后没有进一步互动就离开的用户百分比
Scroll_Depth滚动深度:用户滚动浏览网页页面的深度
Age用户年龄
Location用户位置
Session_Duration用户在网站上的会话持续时间
Purchases用户是否购买了书籍(是/否)
Added_to_Cart用户是否将书籍添加到购物车(是/否)

3.Python库导入及数据读取

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import spearmanr,ttest_ind
import scipy.stats as stats
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import RandomOverSampler
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
import xgboost as xgb
from sklearn.metrics import classification_report,confusion_matrix,roc_curve, auc
data = pd.read_csv('D:\Desktop\商业数据分析案例\在线书店AB测试数据集\website_ab_test.csv')

4.数据预览

查看数据维度: (1000, 10)

查看数据信息:

查看重复值: 0

查看分类特征的唯一值:

绘制箱线图查看数值型变量是否存在异常值:

前五行数据

前五行数据

数据干净,直接开始进行分析。

5.描述性分析

  • 深色主题的网站在用户中更受欢迎,占比稍高于浅色主题。

  • 用户的点击率和转化率相对较高,但弹出率也较高,表明用户对网站内容的兴趣较大,但部分用户可能没有深入浏览网站。

  • 用户的平均年龄在中年阶段,且用户来自多个不同位置,以Chennai和Bangalore为主。

  • 会话持续时间和滚动深度的变异性较大,表明用户在网站上的参与程度存在较大差异。

  • 超过一半的用户进行了购买或添加购物车操作,表明网站的商品吸引力较大。

6.影响用户购物的因素分析

6.1可视化分析

  • 浅色主题略微更受欢迎,但两者之间的差异并不大。

  • 点击率与用户是否购买之间没有显著差异。

  • 转化率与用户是否购买之间没有显著差异。

  • 弹出率与用户是否购买之间没有显著差异。

  • 滚动深度与用户是否购买之间没有显著差异。

  • 用户年龄与购买行为之间没有显著差异。

  • Kolkata和Chennai的用户购买比例相对较高,New Delhi和Bangalore相对较低。用户位置对购买行为有一定影响。

  • 会话持续时间与用户是否购买之间没有显著差异。

  • 将书籍添加到购物车的用户更有可能购买书籍,添加购物车行为与购买行为之间存在显著关系。

6.2斯皮尔曼相关性分析

  • 添加购物车与购买行为之间存在微弱的正相关性,但这并不是强相关性,说明将书籍添加到购物车的用户更有可能购买,但这一行为的影响不是很大。

  • 其他变量(如点击率、转化率、跳出率、滚动深度、用户年龄和会话时长)与添加购物车和购买行为之间几乎没有显著的相关性。

6.3卡方检验

购买行为与用户的主题选择、位置的卡方检验结果

购买行为与用户的主题选择、位置的卡方检验结果

添加购物车行为与用户的主题选择、位置的卡方检验结果

添加购物车行为与用户的主题选择、位置的卡方检验结果

通过卡方检验发现:用户的主题选择(深色或浅色)和用户的位置(城市)与购买行为以及添加购物车行为之间都没有显著的统计关系。

6.4随机森林

预测效果很差,就不展开研究哪个特征在模型中比较重要了。

6.5XGBoost

同样的,换成XGBoost模型一样预测效果很差,也不展开研究模型的重要影响因素了。

既然预测用户是否购买的效果很差,不妨从用户交互度出发,也就是研究不同主题下,确定哪个主题能带来更好的用户参与度。

7.A/B测试

  • Click Through Rate:t值为-1.976702,p值为0.048350。p值小于0.05,表明深色主题和浅色主题在点击率上有显著差异。

  • Conversion Rate:t值为0.474493,p值为0.635252。p值大于0.05,表明深色主题和浅色主题在转化率上没有显著差异。

  • Bounce Rate:t值为-1.200821,p值为0.230106。p值大于0.05,表明深色主题和浅色主题在跳出率上没有显著差异。

  • Scroll_Depth:t值为0.756480,p值为0.449540。p值大于0.05,表明深色主题和浅色主题在滚动深度上没有显著差异。

  • Session_Duration:t值为0.352838,p值为0.724284。p值大于0.05,表明深色主题和浅色主题在会话时长上没有显著差异。

深色主题的点击率要更高一些。

8.总结

本项目主要分析用户交互情况和购买行为。首先通过描述性分析,对数据进行初步探索,然后使用可视化分析、斯皮尔曼相关性分析和卡方检验探究影响用户购物的因素。接着建立了随机森林模型和XGBoost模型,进一步探究这些影响因素在模型中的重要性。最后使用A/B测试(t检验)研究了不同主题下的用户交互情况,得出以下结论:

  1. 通过描述性分析发现:

    • 深色主题的网站在用户中更受欢迎,占比略高于浅色主题。

    • 用户的点击率和转化率相对较高,但弹出率也较高,表明用户对网站内容的兴趣较大,但部分用户可能没有深入浏览网站。

    • 用户的平均年龄在中年阶段,且用户来自多个不同位置,以Chennai和Bangalore为主。

    • 会话持续时间和滚动深度的变异性较大,表明用户在网站上的参与程度存在较大差异。

    • 超过一半的用户进行了购买或添加购物车操作,表明网站的商品吸引力较大。

  2. 添加购物车与购买行为之间存在微弱的正相关性,但相关性并不强,说明将书籍添加到购物车的用户更有可能购买,但这一行为的影响不是很大。此外,由于大多数变量对购物行为的影响不显著,随机森林和XGBoost模型在预测用户购物行为方面表现较差。这表明用户的购物行为不仅仅受到这些因素的影响,还存在未发现的因素,这些因素未包含在数据中。

  3. 通过A/B测试发现,深色主题的点击率更高。而其他用户交互数据在不同主题下并没有显著差异。

  • 15
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值