天池新人实战赛 O2O 优惠券使用预测教程

最新推荐文章于 2025-03-26 16:33:16 发布

power-辰南

最新推荐文章于 2025-03-26 16:33:16 发布

阅读量1.8k

点赞数 34

分类专栏：人工智能文章标签： python 天池 O2O优惠券预测人工智能大模型机器学习

本文链接：https://blog.csdn.net/dengdeng333/article/details/144742784

版权

人工智能专栏收录该内容

38 篇文章

订阅专栏

一、引言

在当今数字化的商业时代，O2O（Online to Offline）模式蓬勃发展，线上线下的融合为消费者带来了全新的购物体验，同时也为商家提供了更多的营销机会。其中，优惠券作为一种常用的营销手段，能够有效地吸引顾客、提高复购率以及促进消费增长。然而，如何精准地预测消费者是否会使用优惠券，对于商家来说至关重要，这不仅关系到营销成本的控制，更关乎营销活动的成效。天池新人实战赛中的 O2O 优惠券使用预测项目，就为我们提供了一个深入探索该领域的绝佳机会。在本教程中，我们将详细介绍参与该项目的全过程，涵盖数据理解、特征工程、模型选择与构建、模型评估以及优化等多个关键要点，帮助大家从零开始掌握这一实战技能。

二、赛事背景与目标

天池新人实战赛 O2O 优惠券使用预测旨在让参赛者基于给定的大规模真实商业数据，构建预测模型，以判断消费者在领取优惠券后是否会实际使用。赛事提供了丰富的数据集，包括用户信息、商家信息、优惠券信息以及消费行为记录等，参赛者需要利用这些数据挖掘出潜在的模式和关联，从而准确预测优惠券的使用情况。通过参与该赛事，一方面可以提升自身的数据挖掘与机器学习能力，另一方面也能深入了解 O2O 商业场景中的消费者行为规律，为未来从事相关领域的工作或研究积累宝贵经验。

三、数据理解

数据概述

赛事数据集通常包含多个表格，这些表格从不同角度记录了与 O2O 优惠券业务紧密相关的各类信息，是我们构建精准预测模型的基石。
常见的有 user.csv（用户信息表），它犹如用户的“画像集”，涵盖用户 ID 这一唯一标识，如同每个人的身份证号码，用于区分不同个体；性别字段能反映出不同性别用户在消费偏好、优惠券使用倾向上可能存在的差异，比如男性可能更倾向于购买电子产品类优惠券，女性或许对美妆、服饰优惠券兴趣更高；年龄信息则进一步细分用户群体，年轻人可能更乐于尝试新的餐饮优惠券，而中老年用户可能对生活日用品优惠券需求更大；城市等级记录了用户所处城市的发展程度，一线城市用户消费观念、消费能力以及对优惠券的敏感度通常与二三线城市有所不同。
merchant.csv（商家信息表）好似商家的“档案库”，商家 ID 用于精准定位每个商家个体；商家类别详细划分了商家所属行业，餐饮、零售、娱乐等不同行业在优惠券营销策略、使用频率、消费场景构建上大相径庭，餐饮商家的优惠券常与用餐时段、菜品特色挂钩，零售商家可能侧重于满减促进批量购买；商家所在城市信息可与用户城市等级等信息关联，探究本地消费与异地消费对优惠券使用的影响。
coupon.csv（优惠券信息表）无疑是本次预测的核心“道具”，优惠券类型区分了是现金券、折扣券、满减券等，不同类型对用户吸引力不同，现金券直观给予现金减免，折扣券在高单价商品上优势明显，满减券能刺激用户凑单消费；面额大小直接关乎优惠力度，大额优惠券虽吸引人但可能限制条件多，小额优惠券使用门槛低但优惠感知弱；有效期设定影响用户使用决策，短期优惠券促使快速消费，长期优惠券给予用户更多规划时间。
coupon_detail.csv（优惠券领取详情表）建立起用户与优惠券的“桥梁”，领取时间记录用户获取优惠券的时刻，结合有效期能推算用户可决策使用的时间窗口，领取用户 ID 关联到用户具体信息，优惠券 ID 对应优惠券详情，通过它能精准知晓谁领取了何种优惠券。
user_consume.csv（用户消费记录表）则是用户消费行为的“日记本”，消费时间反映用户消费习惯的时间规律，有些用户习惯周末消费，有些在工作日下班后消费频繁；消费商家 ID 串联起商家信息，知晓用户偏好哪些商家，消费金额既能体现用户消费能力，又能辅助判断优惠券面额、满减条件等是否契合用户日常消费档次。

数据读取与初步探索

使用 Python 中的 Pandas 库来读取数据，示例代码如下：

import pandas as pd

# 读取用户信息表

user_df = pd.read_csv('user.csv')

# 读取商家信息表

merchant_df = pd.read_csv('merchant.csv')

# 依次读取其他表格

coupon_df = pd.read_csv('user.csv')

coupon_detail_df = pd.read_csv('coupon_detail.csv')

user_consume_df = pd.read_csv('user_consume.csv')

通过 head() 方法查看各数据框的前几行，如同翻开书籍的前言，快速了解数据的大致结构和内容：

user_df.head()
merchant_df.head()
# 以此类推查看其他表

使用 info() 方法获取数据框的详细信息，这就像给数据做一次“全身检查”，包括列名、非空值数量、数据类型等，精准发现数据中的缺失值情况：

user_df.info()

数据统计分析

对各字段进行描述性统计分析，例如对于数值型字段如年龄、消费金额等，使用 describe() 方法就像给这些数据拍了一张“全家福”，展现出它们的统计特征：

user_df['Age'].describe()

user_consume_df['Consume_Amount'].describe()

对于分类型字段如性别、城市等级、商家类别等，通过 value_counts() 方法统计各类别的数量占比，好似清点不同类别成员的“人口普查”：

user_df['Gender'].value_counts() / len(user_df)

merchant_df['Merchant_Category'].value_counts() / len(merchant_df)

分析不同表之间的关联关系，例如通过 merge 操作将用户表和消费记录表基于用户 ID 进行合并，如同搭建起用户与消费行为之间的“连心桥”，查看用户消费行为与个人属性之间的潜在联系：

user_consume_merged = pd.merge(user_df, user_consume_df, on='User_ID')

四、特征工程

基础特征构建

从原始数据中提取直接可用的特征，这些特征是模型大厦的“基石”。如用户领取优惠券距离当前时间的时间差，计算时，先将 coupon_detail_df 中的领取时间 Receive_Time 转换为日期格式，提取前 10 个字符代表日期，再利用 pd.to_datetime 函数精准转化为 datetime 类型：

from datetime import datetime

coupon_detail_df['Receive_Date'] = pd.to_datetime(coupon_detail_df['Receive_Time'].str[:10])

base_date = datetime.strptime('20XX-XX-XX', '%Y-%m-%d') # 替换为赛事基准时间

coupon_detail_df['Days_Since_Receive'] = (base_date - coupon_detail_df['Receive_Date']).dt.days

统计用户历史领取优惠券的数量、使用优惠券的数量，在 coupon_detail_df 上进行分组聚合操作，以用户 ID 为分组依据，就像按班级统计学生的作业完成情况：

user_coupon_stats = coupon_detail_df.groupby('User_ID').agg({'Coupon_ID': 'count', 'Date_Used': lambda x: (x.notnull()).sum()})

user_coupon_stats.columns = ['Total_Received_Coupons', 'Total_Used_Coupons']

对于商家信息，提取商家经营时长，假设商家开业时间在 merchant.csv 中有记录，先将开业时间 Open_Time 如法炮制转换为日期格式，再与当前时间对比计算，了解商家在市场上的“资历”：

merchant_df['Open_Date'] = pd.to_datetime(merchant_df['Open_Time'].str[:10])

merchant_df['Business_Days'] = (base_date - merchant_df['Open_Date']).dt.days

衍生特征挖掘

结合多表信息生成特征，如同将不同食材巧妙搭配成美味佳肴。例如根据用户消费记录表和优惠券领取详情表，计算用户在领取优惠券商家处的历史消费次数，先通过 merge 操作将两张表按用户 ID 和商家 ID 关联起来：

user_merchant_consume = pd.merge(user_consume_df, coupon_detail_df[['User_ID', 'Merchant_ID']], on=['User_ID', 'Merchant_ID'])

user_merchant_consume_count = user_merchant_consume.groupby(['User_ID', 'Merchant_ID']).size().reset_index(name='Historic_Consume_Count_at_Merchant')

考虑用户消费习惯特征，如用户平均消费间隔时间，先对用户消费时间序列进行排序，利用 shift 函数将消费时间错位，计算相邻消费时间差值并求平均，洞察用户消费的“节奏感”：

user_consume_df.sort_values(by=['User_ID', 'Consume_Time'], inplace=True)

user_consume_df['Prev_Consume_Time'] = user_consume_df.groupby('User_ID')['Consume_Time'].shift(1)

user_consume_df['Consume_Interval'] = (pd.to_datetime(user_consume_df['Consume_Time']) - pd.to_datetime(user_consume_df['Prev_Consume_Time'])).dt.days

user_avg_consume_interval = user_consume_df.groupby('User_ID')['Consume_Interval'].mean().reset_index(name='Avg_Consume_Interval')

特征选择

利用相关性分析筛选特征，计算各特征与目标变量（优惠券是否使用）之间的皮尔逊相关系数，就像给特征与目标之间的“亲疏关系”打分。首先遍历所有特征列：

import numpy as np

from scipy.stats import pearsonr

# 假设合并后的特征数据框为 all_features_df，目标变量为 is_used

correlations = []

for col in all_features_df.columns:

if col!= 'Is_Used':

corr, _ = pearsonr(all_features_df[col], all_features_df['Is_Used'])

correlations.append((col, corr))

correlations.sort(key=lambda x: abs(x[1]), reverse=True)

根据相关系数大小，选择相关性较高且业务逻辑合理的特征进入模型，同时结合特征重要性评估方法，如随机森林中的特征重要性属性，多管齐下挑选出模型的“得力干将”：

from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(n_estimators=100, random_state=42)

rf.fit(X_train, y_train) # X_train, y_train 为训练集特征和目标

feature_importances = rf.feature_importances_

feature_importance_df = pd.DataFrame({'Feature': X_train.columns, 'Importance': feature_importances})

feature_importance_df.sort_values(by='Importance', ascending=False, inplace=True)

五、模型选择与构建

常用模型介绍

逻辑回归：简单易用，模型解释性强，适用于线性可分的数据，通过对特征的线性组合并使用 Sigmoid 函数进行概率输出，在大规模数据上训练效率较高。
决策树：基于树结构对数据进行划分，能够自动处理特征之间的非线性关系，对数据分布没有严格要求，但容易过拟合，可通过剪枝等操作优化。
随机森林：由多个决策树组成，通过集成学习的方式提高模型的泛化能力，降低过拟合风险，对噪声数据有一定的鲁棒性，在特征较多、数据维度较高的场景表现出色。
梯度提升树（如 XGBoost、LightGBM）：基于梯度提升框架，迭代地训练弱分类器，能够有效处理大规模数据，具有高效的实现和强大的性能，支持多种自定义损失函数和评估指标。

模型对比实验

划分训练集、验证集和测试集，通常按照 70%、15%、15%的比例进行划分：

from sklearn.model_selection import train_test_split

X = all_features_df.drop('Is_Used', axis=1)

y = all_features_df['Is_Used']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

X_val, X_test, y_val, y_test = train_test_split(X_test, y_test, test_size=0.5, random_state=42)

在训练集上分别训练不同模型，并在验证集上评估性能：

from sklearn.linear_model import LogisticRegression

from sklearn.tree import DecisionTreeClassifier

from sklearn.ensemble import RandomForestClassifier

from xgboost import XGBClassifier

# 逻辑回归

lr = LogisticRegression(max_iter=1000, random_state=42)

lr.fit(X_train, y_train)

lr_pred = lr.predict_proba(X_val)[:, 1]

lr_auc = roc_auc_score(y_val, lr_pred)

# 决策树

dt = DecisionTreeClassifier(random_state=42)

dt.fit(X_train, y_train)

dt_pred = dt.predict_proba(X_val)[:, 1]

dt_auc = roc_auc_score(y_val, dt_pred)

# 随机森林

rf = RandomForestClassifier(n_estimators=100, random_state=42)

rf.fit(X_train, y_train)

rf_pred = rf.predict_proba(X_val)[:, 1]

rf_auc = roc_auc_score(y_val, rf_pred)

# XGBoost

xgb = XGBClassifier(random_state=42)

xgb.fit(X_train, y_train)

xgb_pred = xgb.predict_proba(X_val)[:, 1]

xgb_auc = roc_auc_score(y_val, xgb_pred)

print('LR AUC:', lr_auc)

print('DT AUC:', dt_auc)

print('RF AUC:', rf_auc)

print('XGB AUC:', xgb_auc)

模型选择决策

根据验证集上的性能指标（如 AUC、准确率、召回率等），综合考虑模型的训练时间、可解释性等因素，选择最优模型。通常情况下，梯度提升树类模型如 XGBoost 在竞赛中表现较为突出，但如果对模型解释性要求较高，逻辑回归或简单的决策树模型也有其应用场景。

六、模型评估

评估指标介绍

AUC（Area Under the Curve）：基于 ROC（Receiver Operating Characteristic）曲线计算得到，反映了模型在不同阈值下对正、负样本分类能力的综合评价，AUC 值越接近 1，模型性能越好。
准确率（Accuracy）：预测正确的样本数占总样本数的比例，计算公式为 (TP + TN) / (TP + TN + FP + FN)，其中 TP 为真阳性，TN 为真阴性，FP 为假阳性，FN 为假阴性。准确率容易受到样本不平衡的影响。
召回率（Recall）：也称为查全率，是指实际为正样本且被预测为正样本的比例，即 TP / (TP + FN)，在关注正样本是否被充分检测出来的场景中尤为重要，如预测优惠券使用，召回率高意味着尽可能少地漏判会使用优惠券的用户。
F1 分数：综合考虑准确率和召回率，计算公式为 2 * (Precision * Recall) / (Precision + Recall)，其中 Precision 为精确率，即 TP / (TP + FP)，F1 分数能平衡两者之间的权衡。

模型评估代码实现

使用 Scikit-learn 库计算上述评估指标：

from sklearn.metrics import roc_auc_score, accuracy_score, recall_score, f1_score

# 在测试集上预测

model_pred = selected_model.predict_proba(X_test)[:, 1] # selected_model 为选定的最优模型

auc = roc_auc_score(y_test, model_pred)

acc = accuracy_score(y_test, (model_pred > 0.5).astype(int))

recall = recall_score(y_test, (model_pred > 0.5).astype(int))

f1 = f1_score(y_test, (model_pred > 0.5).astype(int))

print('AUC:', auc)

print('Accuracy:', acc)

print('Recall:', recall)

print('F1 Score:', f1)

七、模型优化

超参数调整

对于选定的模型（如 XGBoost），其有多个超参数需要优化，常见的包括学习率（learning_rate）、树的最大深度（max_depth）、子采样比例（subsample）、迭代次数（n_estimators）等。
可以使用网格搜索（Grid Search）或随机搜索（Random Search）方法来寻找最优超参数组合：

from sklearn.model_selection import GridSearchCV, RandomSearchCV

param_grid = {

'learning_rate': [0.01, 0.05, 0.1],

'max_depth': [3, 5, 7],

'subsample': [0.8, 0.9, 1.0],

'n_estimators': [50, 100, 150]

}

xgb = XGBClassifier(random_state=42)

grid_search = GridSearchCV(xgb, param_grid, cv=5, scoring='roc_auc')

grid_search.fit(X_train, y_train)

print('Best Parameters:', grid_search.best_params_)

随机搜索在参数空间较大时效率相对较高，它随机采样参数组合进行训练，而网格搜索则是穷举所有给定的参数组合，计算成本较高。

模型融合

模型融合是进一步提升性能的有效手段，常见的融合方式有简单加权平均、Stacking 等。
简单加权平均：对多个不同模型（如逻辑回归、XGBoost、随机森林）的预测概率进行加权求和，权重可以通过在验证集上优化得到，使得融合后的模型 AUC 最高：

lr_pred = lr.predict_proba(X_test)[:, 1]

xgb_pred = xgb.predict_proba(X_test)[:, 1]

rf_pred = rf.predict_proba(X_test)[:, 1]

# 假设权重为 w1, w2, w3，初始化为相等权重

w1, w2, w3 = 1 / 3, 1 / 3, 1 / 3

fused_pred = w1 * lr_pred + w2 * xgb_pred + w3 * rf_pred

# 在验证集上调整权重

# 通过循环尝试不同权重组合，计算融合后的 AUC，找到最优权重

# 最终在测试集上使用最优权重进行预测

Stacking：将多个基模型的输出作为新特征，输入到一个元模型（如逻辑回归）中进行再次训练，基模型通常采用不同类型以保证多样性：

from sklearn.linear_model import LogisticRegression

# 训练基模型

lr.fit(X_train, y_train)

xgb.fit(X_train, y_train)

rf.fit(X_train, y_train)

# 生成基模型预测特征

lr_pred_train = lr.predict_proba(X_train)[:, 1].reshape(-1, 1)

xgb_pred_train = xgb.predict_proba(X_train)[:, 1].reshape(-1, 1)

rf_pred_train = rf.predict_proba(X_train)[:, 1].reshape(-1, 1)

stacked_train = np.hstack([lr_pred_train, xgb_pred_train, rf_pred_train])

meta_model = LogisticRegression()

meta_model.fit(stacked_train, y_train)

# 在测试集上生成特征并预测

lr_pred_test = lr.predict_proba(X_test)[:, 1].reshape(-1, 1)

xgb_pred_test = xgb.predict_proba(X_test)[:, 1].reshape(-1, 1)

rf_pred_test = rf.predict_proba(X_test)[:, 1].reshape(-1, 1)

stacked_test = np.hstack([lr_pred_test, xgb_pred_test, rf_pred_test])

meta_pred = meta_model.predict_proba(stacked_test
[:]
)[:, 1]

[:]

)[:, 1]

八、结果提交与分析

结果提交格式

天池平台要求参赛者以 CSV 文件形式提交预测结果，包含用户 ID 和预测的优惠券使用概率两列。确保提交的文件格式严格符合赛事要求，否则可能导致提交失败。示例代码如下：

submit_df = pd.DataFrame({

'User_ID': X_test.index,

'Probability': model_pred

})

submit_df.to_csv('submit.csv', index=False)

线上评估与反馈

将提交的结果上传至天池平台后，平台会依据隐藏的测试集对模型进行评估，并反馈相应的指标得分，如 AUC 等。仔细分析反馈结果，对比本地测试集上的评估指标，找出可能存在的差异原因。如果线上得分明显低于本地评估，可能是由于过拟合导致模型在未知数据上泛化能力较差，或者存在数据泄露问题，使得模型在本地训练时“学习”到了不该有的信息。

结果解读与业务洞察

除了关注模型的性能指标，还应对预测结果进行深入解读，从业务角度分析哪些因素对优惠券使用影响较大。例如，通过特征重要性分析发现某些商家类别、优惠券面额或用户消费习惯特征在模型决策中起到关键作用，这可以为商家制定营销策略提供有力依据。商家可以针对高频使用优惠券的用户群体特征，精准推送更具吸引力的优惠券，提高营销效果。

九、总结与展望

项目总结

回顾整个天池新人实战赛 O2O 优惠券使用预测项目，我们从数据理解入手，了解了 O2O 商业场景下多源数据的结构与内涵；通过精心设计的特征工程，挖掘出大量有价值的特征，为模型提供了丰富信息；在模型选择与构建阶段，对比多种机器学习模型，结合模型评估确定了最适合的预测模型，并通过超参数调整和模型融合进一步优化性能；最后依据赛事要求提交结果，获得线上评估反馈，同时提取业务洞察辅助决策。

经验与教训

经验方面，多表数据关联分析与特征工程的有效结合能够显著提升模型效果，不同模型的优势互补在模型融合中得以体现，合理运用评估指标指导模型优化是关键步骤。教训上，要特别注意数据质量问题，如缺失值、异常值的处理不当可能引入噪声，影响模型准确性；同时，防止数据泄露，确保模型的泛化能力，避免在训练过程中使用未来信息或测试集信息。

展望未来

在 O2O 领域，随着技术的不断发展，消费者行为数据将更加丰富多元，模型可以融入更多实时动态信息，如用户当下的地理位置、浏览行为等，进一步提高优惠券使用预测的精准度。此外，深度学习技术的应用有望拓展模型的表达能力，挖掘更复杂的用户-商家-优惠券之间的潜在关系，为商家精准营销开启新的篇章，助力 O2O 产业持续繁荣发展。

希望本教程能够帮助大家在天池新人实战赛 O2O 优惠券使用预测项目中取得优异成绩，同时深入理解数据挖掘与机器学习在实际商业场景中的应用魅力。如有任何疑问或建议，欢迎交流探讨。