全国大学生数据统计与分析竞赛2021年【本科组】-B题：战胜市场: 应用基于熵权平衡的 CatBoost 二分类模型和改进 RFM 用户价值模型

格图素书

于 2023-05-22 00:15:00 发布

阅读量1.3k

点赞数

分类专栏：大数据竞赛赛题解析文章标签：分类人工智能数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/getusushu/article/details/130789178

版权

大数据竞赛赛题解析专栏收录该内容

500 篇文章 364 订阅 ¥49.90 ¥99.00

订阅专栏

该文介绍了2021年全国大学生数据统计与分析竞赛本科组B题，采用CatBoost二分类模型和改进的RFM用户价值模型。文章详细阐述了数据预处理、特征工程、模型构建（包括加权交叉熵和CatBoost算法）、模型评估与解释，并为企业提供了实际应用建议。

摘要由CSDN通过智能技术生成

目录

1.1 问题描述

1.2 我们的思考

1.3 本文主要工作与创新点

3 符号说明与术语解释

3.1 符号说明

3.2 术语解释

4 任务一、数据预处理

4.1 缺失值处理

4.2 异常值处理

4.3 重复值处理

4.4 数据类型转换

5 任务二、数据分析与可视化

5.1 用户维度

5.2 产品维度

5.3 行为维度

6 任务三、模型的建立、评估与分析

6.1 任务背景与建模概述

6.2 特征工程

6.2.1 构造新特征

6.2.2 特征编码

6.3 模型构建

6.3.1 熵权平衡——加权交叉熵

6.3.2 CatBoost 算法

6.4 模型训练

6.5 模型评估

7.1 特征重要性

7.2 局部可理解性

7.3 决策过程可视化

9 任务四、给企业的建议

表 A.1: 超参设置

表 A.2: 数据的偏度和峰度

Listing 1: Preprocessing.py

gen_new_features_csv.py

ModelTraining.py

摘要

随着中国在线教育行业的不断发展，国内 K12 教育行业竞争日益激烈，因此

如何利用用户数据分析用户价值及行为偏好，并实现精准营销成了该公司的首要

目标。

针对任务一，对 4 份表格的数据进行重复项检查、缺失值填充、异常值修正

等处理，提高数据质量。对

了解本专栏

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

格图素书 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。