Kaggle:Elo顾客忠诚度预测问题

1. 问题分析

Elo是巴西最大的支付品牌之一,与商家建立了合作伙伴关系,以便为持卡人提供促销或折扣。但这些促销活动是否适用于消费者或商家?客户是否喜欢他们的体验?在此次竞赛中,将通过揭示客户忠诚度中的信号,开发算法来识别并为消费者提供最相关的促销或折扣机会。

1.1 提供的数据文件:

我们先来看一下提供的数据文件:

import os
print(os.listdir("../input"))

在这里插入图片描述
data_Dictionary.xlsx :各文件内各列数据的描述文件,有助于我们更好的理解数据信息。
historical_transactions: 每个card_id的消费历史,最多3个月的历史交易,共有2千9百多万条。
new_merchant_transactions:测评期的消费数据,每个card_id在新商店的消费,近2百万条
merchants:商户的信息数据
train:训练集
test: 验证集
sample_submission:提交数据样本

1.2 具体任务:

根据历史数据,侧重特征工程处理,预测每个card_id的忠诚度分数

2. 数据预处理与分析

2.1 train 和 test文件

train_data=pd.read_csv('../input/train.csv', sep=',',header=0)
test_data=pd.read_csv('../input/test.csv', sep=',',header=0)
train_data.info()
test_data.info()


从上图可以看出 train set 含有201917个数据样本,test set 含有123623个数据样本。test set 与train set 的区别在于没有target这也此次任务需要预测。
针对每个card_id 有 first_active_month,feature_1, feature_2, feature_3 这类特征,target是每个card_id 的忠诚度分数。
在这里插入图片描述

2.2 historical_transactions 和 new_transactions文件

先将historical_transactions 和 new_transactions文件 导入:

history_data=pd.read_csv('../input/historical_transactions.csv', sep=',',header=0)
new_data = pd.read_csv('../input/new_merchant_transactions.csv',sep='
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值