The Art of Lemon队的KDD CUP 2011 Track 2解决方案大致思路

随着KDD CUP 2011的结束,需要开始总结我们的解决方案了。我们在最终测试集Test2中排名第二,和在排行榜中测试集Test1上的排名是一致的。我先发一篇 Blog大致总结一下我们的方案,一来自己回顾和理清整个过程便于后面详细的写Solution Paper,二来与大家分享我们队的成果。
Track2的任务是这样的。给定训练集中包含许多用户对歌曲、曲集、歌手、曲风的打分,但不提供打分时间。同时也提供了歌曲、曲集等在内容上的关系,如 每个歌曲是哪个歌手唱的,属于哪个曲集。给定的测试集中包含部分用户,以及每个用户对应给出了6首歌曲。已知这6首歌曲中是包含3首实际被用户打了80分 或以上,另外3首没有被打分。任务就是在测试集中分辨出被用户打了分的歌曲。
对分数的预测在实际系统中用处并不是特别大,这可能就是Track2产生的原因。

  • 制作Validation Set

由于Track 2没有给出Validation Set,所以需要自己制作用于本地测试。因为问题中已经给出了负样本的采样策略,按照实际测试集的产生方法制作即可。

  • 基于内容的模型

首先根据经验和数据分析,有很大一部分人只听某个歌手的歌,还有很大一部分人只听某几个歌手的歌。因此单纯根据歌手、曲集等信息就能判断许多用户。 具体方法是判断测试集中的歌曲的歌手是否被打过分(或者他唱过的歌被打过分)、曲集是否被打过分(或者他收录的歌被打过分),然后计算这些相关打分的加权 平均分用来预测。如果一个歌没有曲集或者歌手,那么显然是不公平的,所以可以对他们指定某个非0预测值。此方法没有用到曲风,我们最后也没有找到很好的方 式利用曲风。这个模型大概能到13%左右的错误率。

  • Item CF

计算测试集中的每个歌曲和该用户已经打过分的所有Item的相似度。我们对计算相似度的方法进行了改进,当然这里面经过了无数的曲折和各种模型。我 大致写一下最好的一个模型的思路。我们发现训练集中的各个打分虽然没有给出时间,但是是具有时间序的,也即每个用户的所有记录是按照时间先后排列的。这样 就有一个自然的想法,如果两个Item被同一用户打过分,但是距离很远,那么对相似度的贡献应该相对较小。
计算两个Item相似度的时候我们对于所有同时被一个用户打分的情况,在相似度的分子和分母上同时增加一个量,否则就在分母上增加一个量。前者还需要乘以 一个时间衰减系数,用来体现时间间距对相似度贡献的变化,也可以再乘以一个分数衰减系数,也即两个Item打分差别很大则降低相似度上的贡献。另外由于和 打分高的Item相似以及和打分低的Item相似的意义不同,因此还需要再乘以一个分数的某次方作为权重。最后取最相似的若干Items求平均相似度即 可。
Item CF还是倾向于推荐热门曲目,所以最后还要再除以一个打分次数的某次方作为惩罚。
这个方法大约可以达到3.8%左右的错误率。

  • 矩阵分解模型

我们主要使用了SVD和NSVD模型,相比常见的模型形式做了一些修改。首先由于缺乏负样本,只用分数做SVD效果很一般,因此需要进行负样本采样。可以考虑正样本的“打分”为1,负样本的“打分”为-1,然后建立SVD模型。也可以让正样本根据分数分散在1的附近。
SVD中,我们额外增加了Item的歌手和曲集的对应Bias项,以及用户是否对相应歌手、曲集打过分的Bias项。后面的Bias项比较强,思想和基于内容的模型类似:用户倾向于给打过分的歌手、曲集包含的歌曲打分。
SVD模型可以达到大约3.5%左右的错误率,如果不使用最后两种Bias项可以达到大约6%左右的错误率。
NSVD模型使用用户打过分的Item向量来“求平均”获得用户向量。其余与SVD模型类似。可以达到大约4%的错误率。
实际求解时我们发现,最后两个Bias项非常强,可以考虑先不使用,等迭代到一定程度再加入,否则更容易陷入不是很好的局部最优解。我计算矩阵分解模型的时候,中间结果都是保存的,下次修改方法再继续迭代,这样不是很“完美”,不过常常得到更好的结果。

  • 算法融合

和Track1的RMSE不同,Track2的目标函数不是连续的,性质非常不好,类似组合优化问题。因此我们使用了模拟退火求解多个模型计算结果 的线性融合系数。后来发现本地的Validation Set在我们突破2.7%的错误率以后已经逐渐开始过拟合,而我们又来不及再把所有算法在新的测试集上重新计算了。于是我们将Validation Set均分为N份,用模拟退火在某N-1份上求出最佳线性融合系数,这样得到的N个线性融合系数再求平均作为最终融合系数。这样虽然仍然不是很稳定,但是 基本上解决了测试集过拟合的问题。我们的最终模型融合的最好结果是2.5%左右,是由多个3%以上和错误率更高的模型融合而来。

  • 后处理

我之前从来没听说过后处理。大致思路就是对某类用户、某类Item的预测值统一乘以一个和1距离不太大的系数,使得预测值更准确。为了不过拟合,必 须保证每次是对比较多的预测值进行统一修改,并且在本地和提交结果中均有比较明显的提高。例如对最热门的若干歌曲均乘以一个系数进一步抑制对热门歌曲的推 荐。这样可以弥补之前所有模型中的缺陷,而这些缺陷往往由于多种原因不能特别“细致”的反映在模型中,但后处理可以做的很“细致”。后处理大约可以使得融 合后的模型进一步提高0.2%至0.3%的正确率。

转载于:https://www.cnblogs.com/icamel/archive/2012/04/21/2461418.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
东南亚位于我国倡导推进的“一带一路”海陆交汇地带,作为当今全球发展最为迅速的地区之一,近年来区域内生产总值实现了显著且稳定的增长。根据东盟主要经济体公布的最新数据,印度尼西亚2023年国内生产总值(GDP)增长5.05%;越南2023年经济增长5.05%;马来西亚2023年经济增速为3.7%;泰国2023年经济增长1.9%;新加坡2023年经济增长1.1%;柬埔寨2023年经济增速预计为5.6%。 东盟国家在“一带一路”沿线国家中的总体GDP经济规模、贸易总额与国外直接投资均为最大,因此有着举足轻重的地位和作用。当前,东盟与中国已互相成为双方最大的交易伙伴。中国-东盟贸易总额已从2013年的443亿元增长至 2023年合计超逾6.4万亿元,占中国外贸总值的15.4%。在过去20余年中,东盟国家不断在全球多变的格局里面临挑战并寻求机遇。2023东盟国家主要经济体受到国内消费、国外投资、货币政策、旅游业复苏、和大宗商品出口价企稳等方面的提振,经济显现出稳步增长态势和强韧性的潜能。 本调研报告旨在深度挖掘东南亚市场的增长潜力与发展机会,分析东南亚市场竞争态势、销售模式、客户偏好、整体市场营商环境,为国内企业出海开展业务提供客观参考意见。 本文核心内容: 市场空间:全球行业市场空间、东南亚市场发展空间。 竞争态势:全球份额,东南亚市场企业份额。 销售模式:东南亚市场销售模式、本地代理商 客户情况:东南亚本地客户及偏好分析 营商环境:东南亚营商环境分析 本文纳入的企业包括国外及印尼本土企业,以及相关上下游企业等,部分名单 QYResearch是全球知名的大型咨询公司,行业涵盖各高科技行业产业链细分市场,横跨如半导体产业链(半导体设备及零部件、半导体材料、集成电路、制造、封测、分立器件、传感器、光电器件)、光伏产业链(设备、硅料/硅片、电池片、组件、辅料支架、逆变器、电站终端)、新能源汽车产业链(动力电池及材料、电驱电控、汽车半导体/电子、整车、充电桩)、通信产业链(通信系统设备、终端设备、电子元器件、射频前端、光模块、4G/5G/6G、宽带、IoT、数字经济、AI)、先进材料产业链(金属材料、高分子材料、陶瓷材料、纳米材料等)、机械制造产业链(数控机床、工程机械、电气机械、3C自动化、工业机器人、激光、工控、无人机)、食品药品、医疗器械、农业等。邮箱:market@qyresearch.com

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值