- 博客(3)
- 收藏
- 关注
原创 spark性能优化----缓存清除
spark是一款优秀的框架,计算性能相当优异,已经发展成大数据主流计算引擎,在spark开发过程中有很多优化的点。其中去除重复计算是非常重要的。一般操作调用cache/persist,来缓存中间结果,避免重复计算。其中cache是persist的一个特列(cache相当于persist())。persist拥以下几个级别的缓存:NONE 默认配置(不缓存) DISK_ONLY 数据缓存到磁盘,...
2018-01-26 18:11:57 11123
原创 spark graphx实现共同好友的聚合
spark graphx是一款优秀的图计算框架,对于批量计算图计算借助于spark的计算引擎,实现数据的快速聚合。 对于最基本的 共同好友推荐可以很方便的实现,一下为实现代码: 数据源的数据格式: 1 2 2 4 。。。 package mob import org.apache.spark.graphx.{GraphLoader, VertexRDD} imp
2018-01-20 16:01:11 3102
原创 spark graphx 实现图的一度正反向搜索,二度正反向搜索
通讯录数据,一直是各个app平台的重要数据来源。通讯录组成的图谱关系分析是大数据部门必做的一件事,因为他可以为推荐算法工程师提供更好的数据支持。 图数据存储有很多种方式: 基本的一种方式就是存储到关系型数据仓储中。这种存储方式的优点是,数据仓储模型简单易于实现且对于一度关系查询也很方便。但是对于二度关系则需要自join一次,三度好友分析则需要自join两次,对于多度分析十分消耗
2018-01-20 15:51:38 2494
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人