天池新人实战赛之[离线赛]尝试(三)

原创 2018年04月16日 13:24:17

接上面两篇文章,只提取10个特征,是远远不够的。看了一些参加S2比赛的博客总结,先通过一些强规则(SQL)来确定结果。

获取前一日(12.18)添加了购物车,当天没有购买过并且在商品子集中的 U-I组合。

SQL写法:

--筛选出12.18添加进购物车的
select  a.user_id,a.item_id   from 
(select  * from 
 vipfin.tianchi_fresh_comp_train_user where substr( time,1,10) ='2014-12-18' 
 and behavior_type=3) a 
 inner join 
 --未购买过的
 (select user_id,item_id from  vipfin.tianchi_fresh_comp_train_user where substr( time,1,10) ='2014-12-18'  and behavior_type<>4
 group by  user_id,item_id
 )  b
 on a.user_id=b.user_id
 and a.item_id =b.item_id
 --在商品子集的
 inner join
 vipfin.tianchi_fresh_comp_train_item  c
 on a.item_id=c.item_id

将这一版提交到系统,准确率和F1值分别



天池新人实战赛----阿里移动推荐算法大赛(御膳房、DTPAI----ODPS初体验)

几个名词: ODPS(OpenData Processing Service):开放数据处理服务由阿里云自主研发,提供针对TB/PB级数据、实时性要求不高的分布式处理能力,应用于数据分析、挖掘、商业智...
  • Dr_Guo
  • Dr_Guo
  • 2016年04月12日 18:18
  • 2602

从零开始天池新人离线赛-数据预处理

作为一个数据挖掘和Python编程的双面小白,从零就真的是从一张白纸开始了。 今天,首先学习怎么将阿里给我们的CSV文件导入到Python中; import csv itemcsv = f...
  • jackaroo_zyz1
  • jackaroo_zyz1
  • 2017年05月24日 21:28
  • 986

天池新人实战赛-阿里移动推荐算法大赛(离线赛与平台赛)

平台赛最终成绩5/1629,算是没辜负我这10天的付出吧。。。我要去玩有奖金的了0.0 想快速入门,请戳这:机器学习入门----以阿里移动推荐算法大赛为例(较详细) 竞赛题目 (离线赛与平台赛题目一样...
  • Dr_Guo
  • Dr_Guo
  • 2016年04月13日 17:04
  • 10099

天池离线赛 - 移动推荐算法(二):基于简单规则的预测

本文讨论如何运用一个简单的规则来进行预测,主要目的是感受一下天池赛答题评分的过程。...
  • Snoopy_Yuan
  • Snoopy_Yuan
  • 2017年06月03日 10:25
  • 1761

天池初体验——新人实战赛之[离线赛]

写在开头:本篇博文的适用对象为对天池比赛完全不知如何下手的小伙伴。本文将从头开始记录如何最简单地整理数据、提取特征,再建立模型或者使用人工规则进行预测,然后选出数据并提交,最后得到结果。所以,本文并不...
  • wy250229163
  • wy250229163
  • 2016年11月05日 16:13
  • 5177

天池体验(二)——新人离线赛数据可视化分析

查看原文:http://www.wyblog.cn/2016/12/16/%e5%a4%a9%e6%b1%a0%e4%bd%93%e9%aa%8c%e4%ba%8c-%e6%96%b0%e4%ba%b...
  • wy250229163
  • wy250229163
  • 2016年12月16日 22:15
  • 1007

天池新人实战赛o2o优惠券结果记录(随时更新)

2017-12-22 方法: 随机0~0.5 结果:0.53335 2017-12-25 方法:5个特征,随机森林 FUser1 线...
  • masbbx123
  • masbbx123
  • 2017年12月26日 09:33
  • 311

天池离线赛 - 移动推荐算法(三):特征构建

本文讨论如何进行特征构建,为之后基于模型的方法提供有效的数据支持。
  • Snoopy_Yuan
  • Snoopy_Yuan
  • 2017年07月14日 13:43
  • 2667

天池新人实战赛o2o优惠券使用预测二

昨天直接提交的随机数据已经实现了整个提交测试流程,下面开始认真的思考问题了: 首先观察训练数据: data = pd.read_csv('ccf_offline_stage1_train.csv') ...
  • masbbx123
  • masbbx123
  • 2017年12月21日 10:54
  • 380

天池新人实战赛o2o优惠券使用预测六(新的思考)

指标好久没有什么大的提高了…… 再次想了想,记录下新的想法: 1 再看了看数据统计的情况data = pd.read_csv('data/ccf_offline_stage1_train.csv'...
  • masbbx123
  • masbbx123
  • 2017年12月29日 10:30
  • 229
收藏助手
不良信息举报
您举报文章:天池新人实战赛之[离线赛]尝试(三)
举报原因:
原因补充:

(最多只允许输入30个字)