KDD CUP 2009年数据集介绍及链接

最新推荐文章于 2025-05-01 10:15:47 发布

WANG_DDD

最新推荐文章于 2025-05-01 10:15:47 发布

阅读量3.3k

点赞数 3

分类专栏：数据预测文章标签： KDD Cup 数据集

本文链接：https://blog.csdn.net/qq_27802435/article/details/81358592

版权

数据预测专栏收录该内容

4 篇文章

订阅专栏

2009年KDD CUP

介绍--KDD Cup 2009:客户关系预测

客户关系管理 (CRM) 是现代营销策略的关键要素。"知识杯 2009" 提供了在法国电信公司橙色的大型营销数据库中工作的机会,以预测客户切换提供商 (流失) 的倾向, 购买新产品或服务 (欲望), 或购买建议的升级或附加组件, 以他们使销售更有利可图 (出售)。

在 CRM 系统中, 最实际的方法是在客户中建立知识, 从而产生分数。分数 (模型的输出) 是对目标变量的所有实例的评估 (例如, 改动、亲和力或销售)。产生分数的工具允许项目, 在给定的人口, 可量化的信息。分数是使用描述实例的输入变量计算的。例如, 信息系统使用分数来个性化客户关系。橙色实验室开发了一个工业客户分析平台, 能够建立具有大量输入变量的预测模型。该平台基于有效模型, 结合变量选择正则化和模型平均法, 实现了实例和变量选择、预测和指数的几种处理方法。这个平台的主要特点是它能够在非常大的数据集上进行扩展, 成千上万的实例和数以千计的变量。快速、稳健地检测最有助于输出预测的变量可以成为市场营销应用中的一个关键因素。挑战在于击败橙色实验室开发的内部系统。这是一个机会, 证明你可以处理一个非常大的数据库, 包括异构的噪音数据 (数字和分类变量), 和不平衡的类分布。时间效率往往是一个关键点。因此, 竞争的一部分将受到时间限制, 以测试参与者快速提供解决方案的能力。

竞争规则

参与条件: 任何遵守挑战规则的人 (KDDcup 2009) 都欢迎参加。只有组织者被排除在外参与。KDDcup 2009 是知识发现的竞争计划的一部分在数据库会议 (发现 2009), 巴黎2009年6月28日至7月1日。参加者不需要参加将在会议上举行的 KDDcup 2009 讲习班, 讲习班对登记的任何人开放。比赛的记录将由机器学习研究研讨会和会议程序杂志 (JMLR WC 和 P) 出版。

匿名: 所有参赛者必须通过注册 KDDcup 2009 网站来识别自己。但是, 他们可能会选择匿名的名字, 并检查框 "使我的个人资料匿名 "。如果选中此框, 则只会在结果表中显示昵称, 而不是实际名称。参与者的电子邮件不会出现在网站上的任何地方, 只会被组织者用来与参与者交流。为了获得奖品, 参与者必须公开显示他们的身份并取消选中 "使我的个人资料匿名 "。

数据: 可以从数据页下载到已注册的参与者。这些数据可在几个存档中提供, 以方便下载, 并提供两个版本 ( "小 " 与230个变量, "大 " 和1.5万个变量)。参与者可以在两个版本中输入结果, 这对应于相同的数据项, 小版本的230个变量只是大版本的1.5万个变量的子集。没有真正的目标标签, 培训和测试数据都是可用的。为实践目的, "玩具 " 培训标签可与培训数据一起从挑战的开始在快速轨道。在玩具目标 (T) 的结果将不计算最终评估。真正的培训标签的任务 "改动 " (C), "欲望 " (A), 和 "销售 " (U), 将提供单独下载一半的方式, 通过挑战。

挑战持续时间和轨道: 挑战从2009年3月10日开始, 2009年5月11日结束。有两个挑战轨道:

快速 (大) 挑战: 在大型数据集上提交的结果在五天内发布的真正的培训标签将会对快速的挑战。
缓慢的挑战: 结果在小数据集和结果上的大数据集没有资格的快速挑战, 提交之前的 KDDcup 2009 截止日期 2009年5月11日, 将计数的缓慢挑战。如果在两个轨道中都有一个以上的提交, 并且有一个数据集, 则在跟踪截止日期之前的最后一个提交将被考虑到, 以确定参与者的排名并对奖品进行属性。你可以在两条赛道上竞争。这两条赛道都有奖品。

在线反馈: 在挑战中, 培训集的性能将在结果页上提供, 以及有关测试集性能的部分信息: 测试集在玩具任务 (T) 上的性能和测试的固定10% 子集的性能实际任务的示例 (C、A、U)。在挑战结束后, 将在结果表中计算并替换整个测试集的性能。

提交方法: 提交的方法是通过提交页面上的表格。要排名, 提交必须遵守指示。提交应包括对至少一项任务 (T、C、A、U) 的培训和测试设置的结果, 但可能包括几个任务的结果。提交将被视为 "完整 ", 并有资格获得奖品, 如果它包含6个文件对应的培训和测试数据预测的任务 C, A, 和 U, 无论是小的或大的数据集 (或两者)。结果在实践任务 T 将不计数作为竞争的一部分。如果您在提交过程中遇到问题, 请与 "挑战站长" 联系。允许多个提交, 但请限制自己每天最多5份提交。对于您在慢速跟踪中的最终条目, 您可以在同一存档中的任何一个或两个小数据集上提交结果 (因此您可以获得2的获胜机会)。

评估和排名: 对于每一个参赛者来说, 只有最后一个有效的参赛者才会指望在每个曲目中确定赢家 (快速而缓慢)。我们将每个参与者限制在每个曲目中的一个最终条目中 (请参阅 "常见问题解答" 页面, 了解您可以在团队中工作的条件)。有效条目必须包括所有三个实际任务的结果。评分方法张贴在 "任务" 页上。奖品将只归因于执行比基线方法更好的项目 (朴素贝叶斯)。基线方法的结果在结果页中提供。这些不是橙色组织团队获得的最佳结果, 他们很容易表现出色, 但难度很大。

数据下载

2009年 KDD CUP数据集下载

比赛结果

Rank	Team Name	Method	AUC
Rank	Team Name	Method	Churn	Appetency	Upselling	Score
1	IBM Research	Final Submission	0.7611	0.8830	0.9038	0.8493
2	ID Analytics, Inc	DT	0.7565	0.8724	0.9056	0.8448
3	Old dogs with new tricks	Our own method	0.7541	0.8740	0.9050	0.8443
4	Crusaders	Joint Score Technique	0.7569	0.8688	0.9034	0.8430
5	Financial Engineering Group, Inc. Japan	boosting	0.7498	0.8732	0.9057	0.8429
6	LatentView Analytics	Boosting	0.7579	0.8670	0.9034	0.8428
7	Data Mining	Logistic	0.7580	0.8659	0.9034	0.8424
8	StatConsulting (K.Ciesielski, M.Sapinski, M.Tafil)	AdvancedMiner	0.7544	0.8723	0.8997	0.8421
9	Sigma	Decision Tree Algo	0.7568	0.8644	0.9034	0.8415
10	Analytics	CART	0.7564	0.8644	0.9034	0.8414
11	Ming Li & Yuwei Zhang	me	0.7507	0.8683	0.9050	0.8413
12	Hungarian Academy of Sciences	fri4	0.7496	0.8683	0.9042	0.8407
13	Oldham Athletic Reserves	tiberius10	0.7492	0.8699	0.9026	0.8406
14	Swetha	Logistic	0.7550	0.8659	0.8996	0.8401
15	VladN	vnf8c	0.7415	0.8692	0.9012	0.8373
16	VADIS	Bagging	0.7474	0.8631	0.8994	0.8366
17	brendano	random forests (res11)	0.7468	0.8627	0.9003	0.8366
18	commendo	1 before noon	0.7381	0.8693	0.8988	0.8354
19	FEG CTeam	Boosting	0.7389	0.8616	0.9011	0.8338
20	Vadis Team 2	Best final	0.7442	0.8568	0.8996	0.8335
21	National Taiwan University, Computer Science and Information Engineering	all2	0.7428	0.8679	0.8890	0.8332
22	Kranf	TIM	0.7463	0.8478	0.8980	0.8307
23	Neo Metrics	final2	0.7454	0.8449	0.8994	0.8299
24	ooo	10-3	0.7427	0.8520	0.8920	0.8289
25	TonyM	mymethod5	0.7397	0.8481	0.8988	0.8289
26	AIIALAB	ensemble	0.7413	0.8458	0.8969	0.8280
27	Uni Melb	hfinal	0.7087	0.8669	0.8996	0.8251
28	Christian Colot	My GoldMiner	0.7183	0.8577	0.8958	0.8240
29	Céline Theeuws	final	0.7346	0.8476	0.8835	0.8219
30	m&m	final test	0.7218	0.8423	0.8924	0.8189
31	Predictive Analytics	Logistic	0.7131	0.8336	0.8917	0.8128
32	DKW	NN / Logistic Regression on Laptop	0.6980	0.8449	0.8928	0.8119
33	NICAL	Dys	0.7108	0.8461	0.8707	0.8092
34	UW	eq+uneq	0.6804	0.8531	0.8815	0.8050
35	Prem Swaroop	thmdkd4	0.6972	0.8384	0.8794	0.8050
36	Dr. Bunsen Honeydew	submission #004	0.7048	0.8235	0.8760	0.8015
37	dodio	L2	0.7179	0.8474	0.8356	0.8003
38	FEG D TEAM	mix2	0.6997	0.8139	0.8824	0.7987
39	minos	rdf	0.6828	0.8233	0.8698	0.7920
40	M	Release1	0.7289