图数据库 --- > spark 和janusgraph组合（四）

最新推荐文章于 2024-01-22 19:13:26 发布

chencas

最新推荐文章于 2024-01-22 19:13:26 发布

阅读量3k

点赞数

分类专栏：图数据库

本文链接：https://blog.csdn.net/chencas/article/details/103986077

版权

本文介绍了如何将Janusgraph与Spark结合，利用SparkGraphComputer执行图算法，如PageRank、ShortestPath等。在程序中显式处理Janusgraph的数据并构建GraphX，解决版本冲突问题，尤其是Guava版本不一致导致的提交到Spark集群时的错误。还探讨了打包策略，包括sbt-pack和sbt-assembly的区别以及如何处理依赖冲突。

摘要由CSDN通过智能技术生成

图数据库 — > Tinkerpop (一)
图数据库 — >Janusgraph 基础（二）
图数据库 — > hugegraph （三）
图数据库 — > spark 和janusgraph组合（四）
图数据库 — > JanusGraph可视化之Gephi （五）

如果janusgraph使用spark进行图算法，一种是利用其本身合成的sparkgraphcomputer，目前已集成了多种算法，并且在不断完善中。另一种比较笨的方法是，将其在程序中显式地处理，即把janusgraph中的所有边，节点提取处理，利用其构造graphX，然后进行处理。

SparkGraphComputer

参考graphcomputer，目前已实现PageRank, PeerPressure, ConnectedComponent, ShortestPath等算法

程序内显式转换

这里需要将spark和janusgraph写到一起，采样的是scala语言，首先先将两者打通，数据转化部分待做，这里记录一起打通中的方法，遇到的问题及怎么解决。

项目文件：

文件目录结构

find .
.
./build.sbt
./src
./src/main
./src/main/scala
./src/main/scala/JanusGraphScalaExample.scala
./data
./data/users.txt
./data/folowers.txt

安装包版本

安装scala版本：
2.11.8
spark-shell看到的scala版本：
2.11.8
spark版本：
spark-2.1.1-bin-hadoop2.7
sbt版本：
1.1.1

sbt构建文件

organization := "pluradj"
name := "janusgraph-scala-example"
version := "1.0"
scalaVersion := "2.11.8"

licenses += "Apache-2.0" -> url("http://www.apache.org/licenses/LICENSE-2.0.html")

libraryDependencies += "org.janusgraph" % "janusgraph-core" % "0.2.0"
libraryDependencies += "org.slf4j" % "slf4j-simple" % "1.7.12"

libraryDependencies ++= Seq(
    "org.apache.spark" %% "spark-core" % "2.1.1",
    "org.apache.spark" %% "spark-sql" % "2.1.1",
    "org.apache.spark" %% "spark-mllib-local" % "2.1.1",
    "org.apache.spark" %% "spark-mllib" % "2.1.1",
    "org.apache.spark" %% "spark-graphx" % "2.1.1"
)

主程序文件

import org.janusgraph.core.JanusGraphFactory
import org.janusgraph.graphdb.database.management.ManagementSystem
import org.apache.tinkerpop.gremlin.structure.Edge
import org.apache.tinkerpop.gremlin.structure.Vertex
import org.apache.spark.graphx.GraphLoader
import org.apache.spark.sql.SparkSession
import org.apache.log4j.{
   Level, Logger}


object JanusGraphScalaExample {
   
  def main(args: Array[String]): Unit = {
   
    // create graph
    val graph = JanusGraphFactory.open("inmemory")
    val g = graph.traversal()

    // create graph schema
    var mgmt = graph.openManagement()
    val person = mgmt.makeVertexLabel("person").make()
    val name = mgmt.makePropertyKey("name").dataType(classOf[String]).make()
    val nameIndex = mgmt.buildIndex("nameIndex", classOf[Vertex]).addKey(name