![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 74
weixin_40988315
这个作者很懒,什么都没留下…
展开
-
hadoop初探
MapReduce是一个软件框架没采用并行、分布式处理GB、tb的数据,同时也是一个在商用服务器集群上完成大规模数据处理的执行框架,由google提出,目标是实现可伸缩性使用MapReduce时,重点是编写两个函数:map()映射 过滤和聚集数据 (key1,value1)->(key2,value2)主节点得到输入后,将输入划分为较小的数据块,将这些数据块分不到工作节点上...原创 2018-08-09 16:07:44 · 109 阅读 · 0 评论 -
spark 朴素贝叶斯
P(c/x)=P(X/C)P(C)/P(X)argmax(P(C/X))=argmax(P(X/C)P(C))=argmax(IIP(Xi/c)P(C))Mapreduce 解决方案 第一阶段 用训练数据建立分类器//key 忽略 value 一个样本,包含了各属性值以及分类map(key,value){ String [] tokens =value.split(",...原创 2018-08-17 13:49:21 · 494 阅读 · 0 评论 -
Spark KNN实现
R:查询数据集 S:训练数据集需要对R中每一个元素计算与S中每一个元素的距离可以首先计算得到两个数据集的笛卡尔积用map找到distancegroupBykey同一个r的distance 找出其中的KNN public class KNN{ public static void main(String[] args) throws Exception{ ...原创 2018-08-16 17:04:13 · 2017 阅读 · 0 评论 -
hadoop/spark k均值聚类
// k 期望的簇数//delta 可接受的收敛误差//data 输入数据kmeans(k,delta,data){//初始化簇质心initial_centroids=pick(k,data);//利用这个方法向映射器广播中心writeToHDFS(initial_centroids);//必要时迭代current_centroids=initial_centr...原创 2018-08-16 14:26:02 · 252 阅读 · 0 评论 -
Hadoop/spark 马尔科夫 邮件营销
一阶马尔科夫:系统在t+1时刻的状态仅由t时刻状态决定 时序交易 Mapreduce 输入 customerID, transactionID, pusechasedate amount输出 customerID, (Date1, amount1)(Date2,amount2)(Date3,amount3)...(DateN,AmountN) 用其表示马尔科夫链,最终求转移矩阵...原创 2018-08-16 11:12:10 · 384 阅读 · 0 评论 -
Hadoop/Spark 左外连接
左外连接SELECT filed_1,filed_2..FROM T1 LEFT OUTER JOIN T2ON T1.k=T2.kgroup by filed_1 MapReduce 两个阶段 第一个阶段 找出所有售出的商品及关联的地址 第二个阶段统计售出的商品的地址个数public class LeftOuterJoin{ //读取输入参数 ...原创 2018-08-13 17:41:32 · 641 阅读 · 0 评论 -
hadoop/saprk Top 10列表
Java Top Nstatic SortedMap<Integer,T> topN(List<Tuple2<T,Integer>>,L,int N){ if ((L==null)||(L.isEmpty())){ return null;} SortedMap<Int...原创 2018-08-13 14:58:04 · 218 阅读 · 0 评论 -
hadoop/spark 二次排序
map传入到reduce时,是按键排序的,但键内的值序列是无序的,如果要想构造有序的值序列,需要二次排序,构造组合中间键,让MapReduce框架执行排序 //中间键的排序顺序DateTemperaturePair类 public class DateTemperaturePair implements Writable, WritableComparable...原创 2018-08-13 08:35:56 · 198 阅读 · 0 评论 -
基于用户评分的电影推荐 Hadoop/spark实现
Mapreduce框架输入 user1 movie1 ratingmapreduce 1阶段map(<user>,<movie>,<rating>){ k2=movie; v2=Tuple2(user, rating); emit(ke,v2) }//key =movie// valu...原创 2018-08-15 09:09:40 · 1675 阅读 · 0 评论 -
Mapreduce 推荐引擎
购买过该商品的顾客还购买过哪些商品 给一个商品,推荐购买过这个商品的用户经常购买的五件产品输出是键值对,键是商品,值是5个商品的列表map1//key=userid value=useriD购买过的产品map (userID,item){ emit(userID,item);}reduce1reduce(userID,item[i1,i2,...in])...原创 2018-08-15 08:17:33 · 354 阅读 · 0 评论 -
hadoop/saprk 共同好友
Mapreduce算法输入key value key是用户 value是用户的好友列表 ,构造新的key 是用户和其中一个好友,value是 用户的其余的好友列表,在归约器中求相同key 的value的交集map(key, value){ reducevalue=(<friend1><friend2>...<friendn>); ...原创 2018-08-14 14:38:35 · 137 阅读 · 0 评论 -
Hadoop/spark 购物篮分析
Hadoop Mapreduce 形式化映射器//key 交易ID 忽略//value 交易商品(i1,i2,...in)map(key,value){ (s1,s2,...sn)=sort(i1,i2,...in); List<Tuple2<si,sj>> listofpairs=Combinations...原创 2018-08-14 11:19:20 · 671 阅读 · 0 评论 -
皮尔逊相关系数mapreduce实现
mapreduce框架/key 由mapreduce生成,可忽略value 矩阵中的一行map(key,value){ double [] arr =line.split(","); int size = arr.length; for(int i =0; i<size-1;i++){ for (int j =i+1; j<size;j++){ ...原创 2018-08-27 13:41:02 · 403 阅读 · 0 评论