Kaggle：Elo顾客忠诚度预测问题

最新推荐文章于 2022-08-30 15:33:23 发布

紫砂痕

最新推荐文章于 2022-08-30 15:33:23 发布

阅读量1.9k

点赞数 3

分类专栏： python 基础机器学习文章标签： Kaggle

本文链接：https://blog.csdn.net/qq_36047533/article/details/88323925

版权

Kaggle：Elo顾客忠诚度预测问题

1. 问题分析
- 1.1 提供的数据文件：
- 1.2 具体任务：
2. 数据预处理与分析
2.1 train 和 test文件
2.2 historical_transactions 和 new_transactions文件
3. 特征工程构建
4. 训练模型
参考链接：

1. 问题分析

Elo是巴西最大的支付品牌之一，与商家建立了合作伙伴关系，以便为持卡人提供促销或折扣。但这些促销活动是否适用于消费者或商家？客户是否喜欢他们的体验？在此次竞赛中，将通过揭示客户忠诚度中的信号，开发算法来识别并为消费者提供最相关的促销或折扣机会。

1.1 提供的数据文件：

我们先来看一下提供的数据文件：

import os
print(os.listdir("../input"))

在这里插入图片描述
data_Dictionary.xlsx ：各文件内各列数据的描述文件，有助于我们更好的理解数据信息。
historical_transactions：每个card_id的消费历史，最多3个月的历史交易，共有2千9百多万条。
new_merchant_transactions：测评期的消费数据，每个card_id在新商店的消费，近2百万条
merchants：商户的信息数据
train：训练集
test: 验证集
sample_submission：提交数据样本

1.2 具体任务：

根据历史数据，侧重特征工程处理，预测每个card_id的忠诚度分数

2. 数据预处理与分析

2.1 train 和 test文件

train_data=pd.read_csv('../input/train.csv', sep=',',header=0)
test_data=pd.read_csv('../input/test.csv', sep=',',header=0)
train_data.info()
test_data.info()

从上图可以看出 train set 含有201917个数据样本，test set 含有123623个数据样本。test set 与train set 的区别在于没有target这也此次任务需要预测。
针对每个card_id 有 first_active_month,feature_1, feature_2, feature_3 这类特征，target是每个card_id 的忠诚度分数。
在这里插入图片描述

2.2 historical_transactions 和 new_transactions文件

先将historical_transactions 和 new_transactions文件导入：

history_data=pd.read_csv('../input/historical_transactions.csv', sep=',',header=0)
new_data = pd.read_csv('../input/new_merchant_transactions.csv',sep='