2018年01月_sunkl_

10月 09月 08月 05月 04月 01月

原创 spark性能优化----缓存清除

spark是一款优秀的框架，计算性能相当优异，已经发展成大数据主流计算引擎，在spark开发过程中有很多优化的点。其中去除重复计算是非常重要的。一般操作调用cache/persist,来缓存中间结果，避免重复计算。其中cache是persist的一个特列（cache相当于persist()）。persist拥以下几个级别的缓存：NONE 默认配置（不缓存） DISK_ONLY 数据缓存到磁盘,...

2018-01-26 18:11:57 11123

原创 spark graphx实现共同好友的聚合

spark graphx是一款优秀的图计算框架，对于批量计算图计算借助于spark的计算引擎，实现数据的快速聚合。对于最基本的共同好友推荐可以很方便的实现，一下为实现代码：数据源的数据格式： 1 2 2 4 。。。 package mob import org.apache.spark.graphx.{GraphLoader, VertexRDD} imp

2018-01-20 16:01:11 3102

原创 spark graphx 实现图的一度正反向搜索，二度正反向搜索

通讯录数据，一直是各个app平台的重要数据来源。通讯录组成的图谱关系分析是大数据部门必做的一件事，因为他可以为推荐算法工程师提供更好的数据支持。图数据存储有很多种方式：基本的一种方式就是存储到关系型数据仓储中。这种存储方式的优点是，数据仓储模型简单易于实现且对于一度关系查询也很方便。但是对于二度关系则需要自join一次，三度好友分析则需要自join两次，对于多度分析十分消耗

2018-01-20 15:51:38 2494

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人