【天池竞赛系列】淘宝穿衣搭配算法第二赛季12名思路

给的数据集有4部分

达人搭配组合

商品信息

购买记录

线上测试集


在第一赛季中的思路和阿里星小江分享的差不多

http://datartist.cn/?p=5


第二赛季自己实力不够,思路陷入迷信模型中,导致被干出了前10

那么我就来讲讲12名的思路吧


首先根据达人搭配提取出类别搭配对,一共2600+

然后把历史记录按同一个人同一个月购买的数据传入MR,得到搭配对,然后统计次数,去掉类别不搭配的商品对,这个结果线上2.72

然后是模型的一部分

刚开始模型选取的预测样本是预测集搭配类相似度top400

然后把达人搭配弄成两两搭配,有210W+

这些全部作为模型的正样本

负样本也全部使用达人搭配里面的商品,取类别搭配的商品对,随机采样和正样本1:5

这样得到的结果,把历史记录放前面,模型结果放后面大概是6.09


后来意识到预测样本召回太小了,于是通过关系网络又构建了一大波预测样本。

商品对之间的关系可以分为三种,达人搭配,相似,同时购买。


于是通过这三种关系互相传递得到10几份样本,再加进去用模型预测,最后结果在6.32

后面通过简单3:1的比例穿插融合历史记录和模型结果得到6.45


模型特征有51个:两个商品的销量,两个商品在每个月的向量在商品本身的占比26个,每个月销量占比向量的相似度,商品文本的TFIDF余弦相似度,还有其他各种加权相似度15个,类别权重cat_1,cat_2,weight,词权重权重cat_1,cat_2,term_1,term_2,weight.这两个提分还是挺大的。类别权重就是类别搭配对在达人搭配中的次数除以cat_1的次数,词权重思路也是差不多,但是词权重的代码不太好写。我写完之后过几天自己都看不懂了。。。

最后天我添加了一个特征,搭配商品在达人搭配中出现的次数,导致线上成绩5.5。。。。。我觉得有可能是我代码写错了,线下测试明明是提升很多的


这比赛跪掉的原因总结如下:迷信模型,没有充分考虑到传递搭配的权重问题,如果把传递的一些特征添加到模型中或许也有提升。

也没有充分融合各部分的结果,把不同样本放到同一个模型中预测不太靠谱,要么加上代表这类样本的特征,要么直接用权重来融合每一部分的结果

这样才能体现出商品对的权重信息,因为商品对可能出现在不同样本集中,这代表了不同的传递的信息量的融合。


下面这段模型融合的代码中,我是直接取的商品对的得分最大值,应该加权的.听说前面那些7,8分的都没用模型,直接按权重相加,顿时就给大神们跪了。

create table result1208 as
select item_1 as item_id,item_2 as sim_item,prediction_score as sim,rank
from(
select item_1,item_2,prediction_score,row_number() over(partition by item_1 order by prediction_score desc) as rank
from(
select item_1,item_2,max(prediction_score) as prediction_score from(
select * from result_match_sim
union all select * from result_cb
union all select * from result_cd
union all select * from result_ce
union all select * from result_cf
union all select * from result_cg
union all select * from result_ch
union all select * from result_ci
union all select * from result_cj
union all select * from result_ck
union all select * from result_cm
union all select * from result_cn
union all select * from result_co
union all select * from result_cp
)a group by item_1,item_2,prediction_score
)a)a where rank<=200;


至于图像方面,得到的特征太长了,算的时候比较浪费资源,而且一算就是一天,就没有用。

后面朋友告诉我可以用来算搭配类的相似度,把得到的结果前面几个放到提交结果的前面会有很大提升。


最后依依不舍的去平台数了下代码,有4800行SQL,MR大概有个千行吧

比赛结束后,最大的感触就是,还是自己太菜




  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
大学生参加学科竞赛有着诸多好处,不仅有助于个人综合素质的提升,还能为未来职业发展奠定良好基础。以下是一些分析: 首先,学科竞赛是提高专业知识和技能水平的有效途径。通过参与竞赛,学生不仅能够深入学习相关专业知识,还能够接触到最新的科研成果和技术发展趋势。这有助于拓展学生的学科视野,使其对专业领域有更深刻的理解。在竞赛过程中,学生通常需要解决实际问题,这锻炼了他们独立思考和解决问题的能力。 其次,学科竞赛培养了学生的团队合作精神。许多竞赛项目需要团队协作来完成,这促使学生学会有效地与他人合作、协调分工。在团队合作中,学生们能够学到如何有效沟通、共同制定目标和分工合作,这对于日后进入职场具有重要意义。 此外,学科竞赛是提高学生综合能力的一种途径。竞赛项目通常会涉及到理论知识、实际操作和创新思维等多个方面,要求参赛者具备全面的素质。在竞赛过程中,学生不仅需要展现自己的专业知识,还需要具备创新意识和解决问题的能力。这种全面的综合能力培养对于未来从事各类职业都具有积极作用。 此外,学科竞赛可以为学生提供展示自我、树立信心的机会。通过比赛的舞台,学生有机会展现自己在专业领域的优势,得到他人的认可和赞誉。这对于培养学生的自信心和自我价值感非常重要,有助于他们更加积极主动地投入学习和未来的职业生涯。 最后,学科竞赛对于个人职业发展具有积极的助推作用。在竞赛中脱颖而出的学生通常能够引起企业、研究机构等用人单位的关注。获得竞赛奖项不仅可以作为个人履历的亮点,还可以为进入理想的工作岗位提供有力的支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值