天池新人实战赛之[离线赛]尝试(三)

接上面两篇文章,只提取10个特征,是远远不够的。看了一些参加S2比赛的博客总结,先通过一些强规则(SQL)来确定结果。

获取前一日(12.18)添加了购物车,当天没有购买过并且在商品子集中的 U-I组合。

SQL写法:

--筛选出12.18添加进购物车的
select  a.user_id,a.item_id   from 
(select  * from 
 vipfin.tianchi_fresh_comp_train_user where substr( time,1,10) ='2014-12-18' 
 and behavior_type=3) a 
 inner join 
 --未购买过的
 (select user_id,item_id from  vipfin.tianchi_fresh_comp_train_user where substr( time,1,10) ='2014-12-18'  and behavior_type<>4
 group by  user_id,item_id
 )  b
 on a.user_id=b.user_id
 and a.item_id =b.item_id
 --在商品子集的
 inner join
 vipfin.tianchi_fresh_comp_train_item  c
 on a.item_id=c.item_id

将这一版提交到系统,准确率和F1值分别



阅读更多
文章标签: 天池训练赛
个人分类: 机器学习
上一篇机器学习特征值转换(使用spark.ml)
下一篇hive sql的一些特殊语法
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭