Expedia:1st Place Solution
对 https://www.kaggle.com/c/expedia-hotel-recommendations/forums/t/21607/1st-place-solution-summary 总结翻译
- 距离矩阵完整
将‘用户’和‘旅店’映射到球体位置。如果我们可以成功做到这样,我们可以“扩大泄漏”。对以前发生的距离,以及潜在的任何例子,用户和酒店之间的距离都将变成已知的。
这种方法最明显的问题是如何解决当前的组合不同的列来辨认用户和宾馆位置。对于用户,元组U=(user_location_country, user_location_region, user_location_city)是一个很自然的选择。对于宾馆的事将更少的明显。两个类似决定宾馆位置H1=(hotel_country, hotel_market, hotel_cluster)和H2=(srch_destination_id, hotel_cluster)。H1和H2都被用来做特征,而且依靠最终模型去筛选出哪个更有用。
对于H1和H2,用户和宾馆位置将被随机初始化到一个球体,以及通过梯度下降法将余弦公式球法用在U, H, orig_destination_distance组合中。梯度下降的收敛速度一点都不快,采用涅斯捷罗夫动量和平方误差绝对误差逐渐过渡,这个过程花了大约10 ^ 11次迭代和36小时。
最后,对H1和H2的平均误差分别在1.8和3.7英里ÿ