- 训练集和测试集的数据分在两个不同的表里。通过统计发现只有少部分train_transaction中的TransactionID可以在train_identity中找到对应
区分新广告与就广告
# Here we confirm that all of the transactions in `train_identity`
print(np.sum(train_transaction['TransactionID'].isin(train_identity['TransactionID'].unique())))
print(np.sum(test_transaction['TransactionID'].isin(test_identity['TransactionID'].unique())))
输出:
24.4% of TransactionIDs in train (144233 / 590540) have an associated train_identity.
28.0% of TransactionIDs in test (144233 / 590540) have an associated train_identity.
- TransactionDT 列是时间相关的特征,train_transaction和test_transaction之间没有重复的部分。
train_transaction['TransactionDT'].plot(kind='hist',
figsize=(15, 5),
label='train',
bins=50,
title='Train vs Test TransactionDT distribution')
test_transaction['TransactionDT'].plot(kind='hist',
label='test',
bins=50)
plt.legend()
plt.show()
TransactionDT:来自给定参考日期时间的timedelta(不是实际时间戳)
TransactionAMT:以美元计算的交易付款金额
ProductCD:产品代码,每笔交易的产品
card1 - card6:支付卡信息,如卡类型,卡类别,发行银行,国家/地区等。
地址:地址
dist:距离
P_和(R__)emaildomain:购买者和收件人电子邮件域
C1-C14:计数,例如发现与支付卡相关联的地址数等,实际含义被掩盖。
D1-D15:timedelta,例如上次交易之间的天数等。
M1-M9:匹配,例如卡片上的姓名和地址等。
Vxxx:Vesta设计了丰富的功能,包括排名,计数和其他实体关系。
分类特征:
ProductCD
card1 - card6
addr1,addr2
Pemaildomain Remaildomain
M1 - M9
身份表*
该表中的变量是与交易相关的身份信息 - 网络连接信息(IP,ISP,代理等)和数字签名(UA /浏览器/操作系统/版本等)。
它们由Vesta的欺诈保护系统和数字安全合作伙伴收集。
(字段名称被屏蔽,并且不会提供成对字典用于隐私保护和合同协议)
分类特征:
设备类型
设备信息
id12 - id38
- Categorical Features - Transaction
ProductCD
emaildomain
card1 - card6
addr1, addr2
P_emaildomain
R_emaildomain
M1 - M9
- Categorical Features - Identity
DeviceType
DeviceInfo
id_12 - id_38