关闭

Spark 使用马尔可夫模型的智能邮件营销

目的:用户的购买行为看起来是没有规律可循的,但其实从时间有序的角度看,也许是有规律可循的,例如,用户可能每一个月发工资时购买得多,每年某个时间(双十一、生日)等购买得比较多 马尔科夫模型能够挖掘出时间上的规律,假设我们能够根据用户上一次购买记录推测其下一次购买时间,就可以在推测时间向其发送邮件进行营销 至于营销的商品内容,可以根据其他推荐算法的结果。 输入:,,, ... ZSY40NY...
阅读(17) 评论(0)

Hadoop/MapReduce 使用马尔可夫模型的智能邮件营销

目的:用户的购买行为看起来是没有规律可循的,但其实从时间有序的角度看,也许是有规律可循的,例如,用户可能每一个月发工资时购买得多,每年某个时间(双十一、生日)等购买得比较多 马尔科夫模型能够挖掘出时间上的规律,假设我们能够根据用户上一次购买记录推测其下一次购买时间,就可以在推测时间向其发送邮件进行营销 至于营销的商品内容,可以根据其他推荐算法的结果。 输入:,,, ... ZSY40NYPS...
阅读(92) 评论(0)

Spark 好友推荐解决方案

目标:如果用户A与用户C同时都跟B是好友,但用户A与用户C又不是好友,则向用户A推荐C,向用户C推荐A,同时说明A与C的共同好友有哪些 例如: 有如下的好友关系: 1 2,3,4,5,6,7,8 2 1,3,4,5,7 3 1,2 4 1,2,6 5 1,2 6 1,4 7 1,2 8 1 其中每一行空格前的元素为用户ID,空格后的元素为用户的好友ID列表...
阅读(206) 评论(0)

Hadoop/MapReduce 好友推荐解决方案

目标:如果用户A与用户C同时都跟B是好友,但用户A与用户C又不是好友,则向用户A推荐C,向用户C推荐A,同时说明A与C的共同好友有哪些 例如: 有如下的好友关系: 1 2,3,4,5,6,7,8 2 1,3,4,5,7 3 1,2 4 1,2,6 5 1,2 6 1,4 7 1,2 8 1 其中每一行空格前的元素为用户ID,空格后的元素为用户的好友ID列表 其对应的好友...
阅读(437) 评论(0)

Spark 共同好友解决方案:求大量集合的两两交集

Hadoop/MapReduce 共同好友解决方案:求大量集合的两两交集 import org.apache.spark.SparkConf import org.apache.spark.SparkContext import scala.collection.mutable.ListBuffer object FindCommonFriends { def main...
阅读(14) 评论(0)

Hadoop/MapReduce 共同好友解决方案:求大量集合的两两交集

共同好友:求大量集合的两两交集 目标:令U为包含所有用户的一个集合:{U1,U2,...,Un},我们的目标是为每个(Ui,Uj)对(i!=j)找出共同好友。 前提:好友关系是双向的 输入:... 100,200 300 400 500 600 200,100 300 400 300,100 200 400 500 400,100 200 300 500,100,300 600,100 解决...
阅读(25) 评论(0)

Spark购物篮分析:关联规则挖掘

1、浅谈数据挖掘中的关联规则挖掘 2、Hadoop/MapReduce购物篮分析:关联规则挖掘 3、Spark购物篮分析 过程分析: import org.apache.spark.SparkConf import org.apache.spark.SparkContext import scala.collection.mutable.ListBuff...
阅读(63) 评论(0)

Hadoop/MapReduce购物篮分析:关联规则挖掘

购物篮分析 目的:查找一个给定超市或者网店购物篮中最常出现的商品对(阶数为1,2...) 例如:如果有5个商品{A,B,C,D,E},对应以下6个交易: Transaction 1:A,C Transaction 2:B,D Transaction 3:A,C,E Transaction 4:C,E Transaction 5:A,B,E Transaction 6:B,E 我们的目标是构建项集...
阅读(229) 评论(0)

Spark移动平均:时间序列数据平均值

一、内存排序 import org.apache.spark.SparkConf import org.apache.spark.SparkContext object MovingAverageInMemory { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppN...
阅读(20) 评论(0)

Hadoop/MapReduce移动平均:时间序列数据平均值

例子1:时间序列数据(股票价格) 对于如下的收盘价序列数据:...
阅读(32) 评论(0)

Hadoop/MapReduce反转排序:控制规约器Reducer值的顺序

例子:计算一个给定文档集中单词的相对频度。目标是建立一个N*N矩阵M,其中N为所有给定文档的单词量,每个单元Mij包含一个特定上下文单词Wi与Wj共同出现的次数。为简单起见,将这个上下文定义为Wi的邻域。例如:给定以下单词:W1,W2,W3,W4,W5,W6 如果定义一个单词的邻域为这个单词的前两个单词和后两个单词,那么这6个单词的邻域如下: 单词    领域+-2 W1    W2,W3 ...
阅读(42) 评论(0)

Spark的左外连接解决方案

Hadoop/MapReduce的左外连接解决方案 1、Spark的左外连接解决方案之不使用letfOutJoin() import org.apache.spark.{SparkConf, SparkContext} object LeftOutJoinTest { def main(args: Array[String]): Unit = { //连接Spar...
阅读(42) 评论(0)

MapReduce/Hadoop的左外连接解决方案

要解决的问题: 假设有两类数据:用户和交易。用户数据包括用户的地址信息,交易数据包括用户身份信息,但是不包括应乎地址的直接信息。给定users和transactions如下: users(user_id,location_id) transactions(transaction_id,product_id,user_id,quantity,amount) 我们的目标是得出每个商品对应的唯一...
阅读(75) 评论(0)

Spark的TopN解决方案(键唯一的情况、键不唯一的情况)

TopN问题:上星期访问次数最多的10个URL是哪些?所有猫中体重最大的10只猫是哪些? 本文使用 MapReduce/Hadoop的TopN解决方案,假设所有输入键都是唯一的。也就是说,对于一个给定的输入集合{},所有K都是唯一的。 例如对于下面的猫,cat1不会再出现第二次 输入: top10data.txt cat1,12 cat2,13 cat3,...
阅读(95) 评论(0)

MapReduce/Hadoop的TopN解决方案之键不唯一的情况

一、MapReduce/Hadoop的TopN解决方案之键唯一的情况(点击打开链接) 二、针对键不唯一的情况,即文件中可能出现多次关键字 解决办法:先讲不唯一键转换为唯一键,即使用MapReduce合并键相同的项,再使用(一)所述的唯一键TopN方案 即 package topN_hadoop1; import java.io.IOException;...
阅读(68) 评论(0)
108条 共8页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:22333次
    • 积分:1282
    • 等级:
    • 排名:千里之外
    • 原创:97篇
    • 转载:0篇
    • 译文:11篇
    • 评论:7条
    最新评论