目录 摘要 1 引言 1.1 问题描述 1.2 我们的思考 1.3 本文主要工作与创新点 2 模型假设 3 符号说明与术语解释 3.1 符号说明 3.2 术语解释 4 任务一、数据预处理 4.1 缺失值处理 4.2 异常值处理 4.3 重复值处理 4.4 数据类型转换 5 任务二、数据分析与可视化 5.1 用户维度 5.2 产品维度 5.3 行为维度 6 任务三、模型的建立、评估与分析 6.1 任务背景与建模概述 6.2 特征工程 6.2.1 构造新特征 6.2.2 特征编码 6.3 模型构建 6.3.1 熵权平衡——加权交叉熵 6.3.2 CatBoost 算法 6.4 模型训练 6.5 模型评估 7 模型解释 7.1 特征重要性 7.2 局部可理解性 7.3 决策过程可视化 8 模型评价 8.1 优点 8.2 缺点 9 任务四、给企业的建议 参考文献 代码实现 表 A.1: 超参设置 表 A.2: 数据的偏度和峰度 Listing 1: Preprocessing.py gen_new_features_csv.py ModelTraining.py 摘要 随着中国在线教育行业的不断发展,国内 K12 教育行业竞争日益激烈,因此 如何利用用户数据分析用户价值及行为偏好,并实现精准营销成了该公司的首要 目标。 针对任务一,对 4 份表格的数据进行重复项检查、缺失值填充、异常值修正 等处理,提高数据质量。对