数据算法-Spark大数据处理
要说二十一世纪最赤裸裸的工作,那就是大数据应用。
fazhi-bb
物有本末,事有终始,知所先后,则近道矣。
展开
-
[Spark好友推荐]
好友推荐概念 目前大量的社交网站上,它们都有一个共同的特性,就是可以在好友关系的基础上推荐更多的联系人。例如,QQ的“你可能认识的人”特性允许用户查看它们可能联系的人。基本思想就是:如果tom是jack的好友,而tom又是peter的好友,也就是说,tom是jack和peter的共同好友,但是jack和peter可能并不认识你。那么社交网络系统可能就会推荐jack与peter联系,又或...原创 2018-07-20 21:47:58 · 6540 阅读 · 1 评论 -
[Spark共同好友查找]
共同好友的概念 在一个庞大的社交网络中,两个互相认识的朋友之间的也会存在共同好友。在这个庞大的社交网络总,对所有的用户对中找到”共同好友”,这是一个复杂及有趣的事情。假设,U为一个用户及其所有好友的一个集合:{U1,U2,U3,…Un},我们要从每组集合(Ui,Uj)(i != j)找出共同好友关系。 在如今的大多数社交网络(Facebook,LinkedIn,QQ)...原创 2018-07-18 21:14:56 · 5147 阅读 · 5 评论 -
[Spark购物篮的关联规则实现]
购物篮分析(Market Basket Analysis,MBA)是一个商品交易中流行的数据挖掘技术,市场营销人员和电子商务人员经常用这个技术来揭示不同商品或商品组合之间的相似度。商品数据挖掘的目标,一般是从庞大的数据集合中提取有趣及有用的关联信息,例如数前千万商品或信用卡销售交易。购物篮分析可以帮助分析人员找出很有可能一起购买的商品,关联规则挖掘则会发现一个交易商品之间的相关性。然...原创 2018-07-07 21:29:19 · 5426 阅读 · 1 评论 -
[Spark的二次排序的实现]
二次排序原理 二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果。二次排序技术 假设对应的Key = K有如下值: (K,V1), (K,V2),…,(K,Vn) 另外假设每个Vi是包含m个属性的一个元组,如下所示: (Ai1,Ai2,…,Aim)在这里我们希望按Ai1对归约器的元组的值...原创 2018-06-05 20:59:56 · 16746 阅读 · 1 评论 -
[Spark的TopN算法实现]
一、TopN算法 MapRedce中的TopN算法是一个经典的算法,由于每个map都只是实现了本地的TopN算法,而假设map有M个,在归约的阶段只有M x N次运算,这个结果是可以接受的并不会造成性能瓶颈。 MapRedce中的TopN算法在map阶段将使用TreeMap来实现排序,以到达可伸缩的目的。 本文将介绍三种TopN的算法: 1.唯一键的TopN算法,就是...原创 2018-06-09 22:35:54 · 19886 阅读 · 3 评论 -
[Spark的LeftOuterJoin操作]
在编写SQL语句时,大家都比较熟悉的LeftOuterJoinn来关联两个表之间的数据,从而查询到我们想要的结果。在Spark的数据操作中,同样也会经常使用LeftOuterJoin来关联两个数据集。那么,在Spark数据操作中主要有那几种数据集的LeftOuterJoin方法呢? 本文中操作LeftOuterJoin方法时,主要用到的数据为用户表数据和用户订单交易数据,使用Left...原创 2018-06-12 20:56:38 · 16643 阅读 · 0 评论 -
[Spark中移动平均法的实现]
一、 基本概念 移动平均法是一种简单平滑预测技术,它的基本思想是:根据时间序列资料、逐项推移,依次计算包含一定项数的序时平均值,以反映短期趋势的方法。因此,当时间序列的数值由于受周期变动和随机波动的影响,起伏较大,不易显示出事件的发展趋势时,使用移动平均法可以消除这些因素的影响,显示出事件的发展方向与趋势(即趋势线),然后依趋势线分析预测序列的中短期趋势。 移动平均法的应用...原创 2018-06-24 21:28:19 · 11087 阅读 · 4 评论