淘宝推荐算法研究

研究涉及单方面的最优化,但是对于淘宝的推荐来说,我们需要把握整个推荐的大方向大数据量的平衡,因此,向用户推荐商品有两方面需要考虑:推荐方向和推荐准确率。

对于推荐的方向,不仅需要针对历史来推荐还需要为未来推荐,以下有三种推荐算法考虑。

1.       基于内容的过滤:历史推荐

对商品进行tag标注,并对其相关特征进行提取,结合成为该商品的内容特征;同时对用户购买的商品也做特征提出,通过两方面的内容匹配来推荐给用户商品。

2.       基于协同的过滤算法:未来推荐

基于内容的算法可以推荐给用户兴趣相似的商品,但是无法为用户提供新的感兴趣商品,这就需要我们采用协同的思想。协同算法通过相似的用户群和相似的商品进行推荐,可以采用聚类分类等算法来形成相似群体。

3.       基于内容的协同算法

该算法结合了内容和协同两方面,增加了内容项的相似度比较来进行推荐。


对于推荐的准确率,可以通过上述的过滤的实现加上检索算法进行。

淘宝里面有各个完备的数据。每个人都有属于它的信息,这些信息包括年龄、性别、购买过的产品、收藏的商家等信息;同样,每一样物品都有它的信息,包括关键词、类别、购买人、所属商家等。可以对这些特征进行整理,通过聚类算法、预测算法和分类算法等来产生基础的信息库。

1.       预测算法:以商品属性等因素作为指标,进行回归模型建立。

2.       分类算法:通过商品性别判断、用户年龄段判断等,或进行分类模型建立来预测推荐。

3.       聚类算法:对人群或者商品进行分组,用于对特征的降维处理,筛选候选,加快运算速度。

 

  • 1
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
基于大数据的推荐算法研究 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第1页。 论文框架 2 TopKS算法 3 基于项目层次结构相似性的推荐算法 4 矩阵分解并行化 5 总结与展望 1 课题背景与研究意义 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第2页。 图书推荐 新闻推荐 亚马逊 当当网 淘宝网 央广网 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第3页。 课题背景 启发式的协同过滤 代表的方法:KNN 基于模型的协同协同过滤 代表的方法:矩阵分解 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第4页。 课题背景 余弦距离 皮尔逊相关系数 ……… user1(3, 2, ?, 4) user2(2, 3, ?, ?) user3(?, ?, 4, 3) user4(4, ?, ?, 1) user5(?, 5, 5, ?) 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第5页。 课题背景 . X21*y21 + x22* y22 + x23 * y23 3 u2 v2 . = 交替下降 梯度下降 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第6页。 研究意义 用户量猛增 项目(商品、新闻等)数量猛增 推荐算法的可扩展性不强 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第7页。 TopkS算法 采用余弦距离和皮尔逊相关公式累加性特点 引入倒排索引数据结构 结合TopK思想 TopKS是Top K Similarity的简写,即最大的前K个相似度。主要包含以下三部分: 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第8页。 TopkS算法 余弦距离 皮尔逊相关系数 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第9页。 TopkS算法 倒排索引 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第10页。 TopkS算法 计算u1和其他用户的相似度 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第11页。 TopkS算法 假设查找用户ui的最近邻用户,当前计算到用户ui和uj第k1个共同项目(i != j),而ui和uj有k个共同评分项目,则分为两种情况: 如果uj已经在最近邻列表LS中,则直接更新列表中的相似度; 如果uj不在最近邻列表LS中,则计算用户ui和uj可能的最大值,下面是余弦距离和皮尔逊相关系数可能的最大值: 余弦距离 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第12页。 TopkS算法 皮尔逊相关系数 计算出 之后, 是 从LS中剔除最小值,插入uj 把uj加入黑名单 否 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第13页。 TopkS算法 不同稀疏度对近邻计算的影响 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第14页。 TopkS算法 不同规模用户数量上的比较实验 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第15页。 TopkS算法 不同K值对执行时间的影响 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第16页。 基于项目层次结构相似性的推荐算法 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第17页。 基于项目层次结构相似性的推荐算法 相似度度量 节点之间的距离度量: 然后利用最短路径算法Dijkstra结合TopK思想找到最相近的项目; 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第18页。 基于项目层次结构相似性的推荐算法 三种算法效果对比 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第19页。 矩阵分解并行化 目标函数 采用梯度下降方法,V的更新公式通常是: 这里 注意: 是一个常数,对因子矩阵中的每个元素都一样 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第20页。 矩阵分解并行化 同理,用户因子矩阵U也可以近似为矩阵乘除的形式. , V的更新公式变为: 这里 把步长修改为因子矩阵中每个元素一个值,如下: 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第21页。 矩阵分解并行化 MapReduce编程模型 大数据应用-基于大数据的推荐算法研究全文共35页,当前为第22页。 矩阵分解并行化 a11 a12 a13 a21 a22 a23 a31 a32 a33 a41 a42 a43 左矩阵A b11 b12 b13 b14 b21 b22 b23 b24 b31 b32 b33 b34 右矩阵B 内积法 外积法 分块矩阵乘法 c11 c12 c13 c14 c21 c22 c23 c24 c31 c32 c33 c34 c41 c42 c43 c44 结果矩阵

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值