使用SparkGraphX进行图计算时的编码问题

最新推荐文章于 2024-08-27 14:29:43 发布

妙龄少女郭德纲

最新推荐文章于 2024-08-27 14:29:43 发布

阅读量188

点赞数 2

分类专栏： Spark 图算法 Scala 文章标签： scala 大数据

本文链接：https://blog.csdn.net/LUyan10086/article/details/141599112

版权

图算法同时被 3 个专栏收录

7 篇文章 0 订阅

订阅专栏

Spark

5 篇文章 0 订阅

订阅专栏

Scala

5 篇文章 0 订阅

订阅专栏

使用SparkGraphX进行图计算时的编码问题

在SparkGraphX体系中，要求图网络中的点ID必须为Long类型，不像Python中的networkX工具包支持字符串类型的节点表示，但在现实场景中，有很多情况下，点ID都是字符串类型的，如身份证号、设备号或是埋点采集到的uid等等，都不是单纯能够使用Long类型来表示的。
为解决上述问题，本文将提出两种解决方案，分别是Hash编码以及Row_number编码，接下来本文将详细描述上述两种方案的优缺点以及实现代码（基于Scala实现）。

一、Hash编码

与Python自带的Hash编码不同，Java中的hash编码，多次执行，对同一变量得到的Hash编码相同，Python中带有随机因子，多次执行结果不一样。
但Java自带的Hash编码由于使用了截断（得到的编码是Int类型，取值范围相对较小），在大数据量容易出现Hash碰撞问题，但在数据量较小的时候，还是非常好用的并且实现非常简单。
Hash编码

一、pandas是什么？

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

二、Row_number编码

另一种编码方案即为借助SQL中的开窗函数row_number的功能，对所有的点ID都生成一个递增的编码，保留原ID与编码之间的对应关系（一个DataFrame），使用编码ID进行后续的图计算，计算完成后再将编码结果转换回原ID结果。
相比Hash编码，这种编码方案的优点很明显，完全不用担心碰撞问题，能够精准保证原ID与编码ID一一对应，但缺点也很明显，计算效率会降低，尤其在大数据量下执行row_number操作，虽然Spark内部对这类函数做了优化，但是效率仍然是一个大问题，依靠提高并发以及分配更多的资源能一定程度上提高运行效率，但与Hash编码依然是没法比，还是要做权衡，如果数据量不大，对精度要求不高，一般优先使用Hash编码；如果数据量较大或是对精度要求比较高的场景，则优先考虑row_number实现方案。

Row_number编码实现代码

总结

在这里插入图片描述

妙龄少女郭德纲

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
使用SparkGraphX进行图计算时的编码问题

在SparkGraphX体系中，要求图网络中的点ID必须为Long类型，不像Python中的networkX工具包支持字符串类型的节点表示，但在现实场景中，有很多情况下，点ID都是字符串类型的，如身份证号、设备号或是埋点采集到的uid等等，都不是单纯能够使用Long类型来表示的。为解决上述问题，本文将提出两种解决方案，分别是Hash编码以及Row_number编码，接下来本文将详细描述上述两种方案的优缺点以及实现代码（基于Scala实现）。与Python自带的Hash编码不同，Java中的hash编码，多
复制链接

扫一扫

专栏目录