阿里大数据竞赛(天猫推荐算法)

莫名其妙搞了这个比赛(戳这里看比赛内容)

然后被虐得生活不能自理 ...开始还能排到top80

现在都要掉出Top500了

感觉到了瓶颈木有提升空间

就放弃治疗了

就把我的一些思路&想法记录下来吧


比赛大致内容是 给你几个月的封装后的数据(用户对品牌的一些操作行为的记录)推测下一个月用户可能会购买神马

因为字段都是加密过的(其实就是用户和品牌都是用ID表示)

这样就无法考虑用户之间和品牌之间的相互作用

这种情况下我们来考虑用户A是否会购买品牌X的商品只需要考虑之前用户A对品牌X的操作行为就好

这一点应该很容易想到

然后实现这一点的话大部分人的第一反应应该都是把用户和品牌都给Hash掉吧...(好吧我的第一反应是这个...不知道大家是怎么样)

然后我仔细想了想 发现Hash其实是不必要的

我们只需要按用户和品牌双关键字排序就好 这样逐记录处理即可(你当前处理的操作记录中的用户和品牌和上一条不一样就说明之前的处理完了)

再考虑到方便输出 就令用户为第一关键字,品牌为第二关键字


现在就该考虑如何判断用户A是否会购买品牌X的商品了

我的想法是 给予每个操作行为类型一个权值k,再乘上一个与时间相关的函数f(t)

当用户A对品牌X的所有操作的 k*f(t) 之和大于某一特定值L时 就认为A会买X了

函数f(t)应该是这个操作行为越久远对现在的影响就越小 突然就想到了记忆曲线这玩意儿了...然后就用了个e为底的指数函数拟合了

再之后就是考虑系数k和特定值L的确定了

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AliDMCompetition 阿里巴巴大数据竞赛(http://102.alibaba.com/competition/addDiscovery/index.htm ) 数据说明 提供的原始文件有大约4M左右,涉及1千多天猫用户,几千个天猫品牌,总共10万多条的行为记录。 用户4种行为类型(Type)对应代码分别为: 点击:0 购买:1 收藏:2 购物车:3 提交格式 参赛者将预测的用户存入文本文件中,格式如下: user_id \t brand_id , brand_id , brand_id \n 上传的结果文件名字不限(20字以内),文件必须为txt格式。 预测结果 真实购买记录一共有3526条 TODO 注意调整正负样本比例 在LR的基础上做RawLR。按照天猫内部的思路来。 在LR的基础上做MRLR,样本提取要更加合理。 在UserCF和ItemCF上加上时间因子的影响。 利用UserCF做好的用户聚类、ItemCF做好的品牌聚类来做细化的LR,或者在聚类 上做LFM 在ItemCF的思路上挖掘频繁项集/购买模式,如购买品牌A和商品后往往会购买 品牌B的商品 LFM 数据集特征 某一商品在购买前的一段时间内会出现大量点击次数,购买完成后的一段时间内也会出现大量点击次数 用户在本月有过行为的商品极少出现在下个月的购买列表里 根据观察推断:用户浏览商品的行为可分为两类: 无目的浏览,可能会在浏览过程中对某些中意的商品进行购买,数据表现为有大量点击次数<=2的行为记录,但很少有购买行为 有目的的查找商品,可能是事先有需求的情况,数据表现为一段时间内点击商品数很少, 但点击过的商品大多数都进行了购买 参考论文 See https://www.google.com.hk/search?q=data+mining+time+series&ie=utf-8&oe=utf-8&aq=t for more. Chapter 1 MINING TIME SERIES DATA - ResearchGate 模型列表 LR(model=LinearSVC(C=10, loss='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1438 1436 626 71 12 | % 100% 99.861% 43.533% 4.937% 0.834% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 76 Precision 5.285118% Recall 5.797101% F1 Score 5.529283% LR(model=LogisticRegression(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1472 1470 615 68 14 | % 100% 99.864% 41.780% 4.620% 0.951% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 74 Precision 5.027174% Recall 5.644546% F1 Score 5.318002% 这个模型在数据变成2次后,Precision ~ 16%,同时F1 ~ 3% LR(model=Perceptron(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 3145 3140 1023 130 26 | % 100% 99.841% 32.528% 4.134% 0.827% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 113 Precis
### 回答1: “阿里巴巴大数据竞赛(天猫推荐算法挑战)”是一个基于推荐系统设计的竞赛,要求参赛者根据用户的历史行为数据构建一个用户特征(user_feature.p)文件。 首先,用户特征(user_feature.p)文件是一个包含用户特征的数据文件,旨在描述用户的个性化需求和兴趣。推荐系统的核心目标是根据用户的特征和历史行为,为其提供最相关、最有价值的推荐。因此,user_feature.p文件需要包含一些重要的用户特征信息。 第一步是收集用户的基本信息,例如用户的性别、年龄、地理位置等。这些信息可用于构建基本的用户画像,以便更好地了解用户的需求和兴趣。 第二步是收集用户的行为数据,例如用户的购买历史、收藏商品、评价商品等。这些行为数据可以揭示用户的真实兴趣和喜好,可以用于计算用户的兴趣矩阵和相似用户。 第三步是提取用户的关键特征,包括用户的购买偏好、商品类别偏好、品牌偏好等。这些特征可以通过分析用户的历史行为数据和关联商品信息来得到。 第四步是构建用户的标签,即用户的个性化特征。可以通过对用户历史行为数据的聚类或分类算法,为每个用户分配特定的标签,从而更好地理解和反映用户的兴趣和需求。 最后,将所有的用户特征整理和处理后,生成user_feature.p文件。这个文件将会成为推荐系统的重要输入,用于构建和优化推荐算法。 总之,基于“阿里巴巴大数据竞赛(天猫推荐算法挑战)”的推荐系统设计的user_feature.p文件应该包含用户的基本信息、历史行为数据、关键特征和个性化标签,以便为用户提供更精准和个性化的推荐服务。 ### 回答2: 基于“阿里巴巴大数据竞赛(天猫推荐算法挑战)”的推荐系统设计的user_feature.p是一个用户特征数据集文件,用于存储用户相关的特征信息。 推荐系统的设计目标是根据用户的行为和偏好,为其提供个性化的推荐结果。为了实现这一目标,需要了解用户的个人特征和行为习惯。user_feature.p文件中包含了用户的基本信息和行为特征。 该文件可能包含以下内容: 1. 用户基本信息:如用户ID、性别、年龄、地区等。这些信息可以辅助推荐系统根据用户的特征进行精准推荐。 2. 用户历史行为:包括用户在过去的购物记录、搜索记录及相关的统计数据。这些信息可以帮助推荐系统了解用户的偏好和兴趣,从而为用户提供符合其需求的推荐结果。 3. 用户社交关系:如用户的好友列表、关注的品牌或商家等关系信息。这些信息可以帮助推荐系统根据用户的社交关系进行推荐,例如向用户推荐朋友的购买行为或推荐给用户其关注的品牌或商家的特定商品。 4. 用户标签:根据用户的行为数据和其他特征信息,可以为用户打上不同的标签,如购买力强、对电子产品感兴趣等。这些标签可以作为推荐算法的输入,从而提高推荐准确度。 总之,user_feature.p文件是推荐系统中用于存储用户特征信息的数据集文件,通过分析用户的基本信息、历史行为、社交关系和标签等特征,推荐系统可以更好地理解用户需求,提供个性化的推荐结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值