基于协同过滤算法推荐的过程

tonylee1219

于 2014-11-26 10:34:46 发布

阅读量905

点赞数

文章标签： hive mahout hadoop 协同过滤算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tonylee1219/article/details/41512385

版权

数据形式：

user_id,         brand_id,     type,      visit_datetime
10944750,    13451,            0,            6月4日
10944750,    13451,            2,            6月4日
10944750,    13451,            2,            6月4日
10944750,    13451,            0,            6月4日
10944750,    13451,            0,            6月4日

.......

其中user_id：用户号

brand_id：商品号

type：0：代表点击，1：代表购买，2：代表收藏，3：代表加入购物车，

visit_datetime：访问商品页面的日期

运用协同过滤算法最后需要处理的数据形式应该是：用户号，商品号，权值（用户对商品喜好程度）

所以要进行数据预处理来计算权值。

权值计算：

首先重设type,表达为基本权值：0.1：代表点击，2：代表购买，1：代表收藏，1：代表加入购物车，

在此考虑用简单的时间序列模型来表现客户的行为：考虑到客户的点击行为有一定时间周期性（也要基于商品类型：比如消耗品）将数据分成每7日（周一到周日）。随着时间增长，客户的点击就代表跟商品有更高的依赖，加权值就增加。

比如：用户A在第一周点击了x1商品10次，那么权值计算就是：0.1×1×10

如果在接下来第二周和第三周又分别点击了8次和6次，那么权值计算：0.1×1×10+0.1×2×8+0.1×3×6

计算出每种type的权值，相加即为此用户对该商品的总权值，即商品喜好程度。

数据清理：

设置阈值，低于多少的权值的商品应该忽略：这点用f值来评判。

A：检索到的，相关的（搜到的也想要的）

B：未检索到的，但是相关的（没搜到，然而实际上想要的）

C：检索到的，但是不相关的（搜到的但没用的）

D：未检索到的，也不相关的（没搜到也没用的）

precision（准确率）= A/A+C recall（找回率）=A/A+B

P和R指标有时候会出现的矛盾的情况，这样就需要综合考虑他们，最常见的方法就是F-Measure（又称为F-Score）

其中a即为设置的阈值.

协同过滤算法：

linux平台，hadoop，hive，mahout

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。