Giraph参数说明

公共参数

参数名称简称默认值示例备注
giraph.maxNumberOfSupersteps-15最多迭代次数
giraph.computationClass--org.apache.giraph.examples.PageRankComputationVertex计算class
giraph.vertex.input.dir-vip-/data/data_wdc_600/arc数据输入路径
giraph.vertexInputFormatClass-vif-org.apache.giraph.examples.LongDoubleNullTextInputFormatLong代表Vertex Id的类型,之后的Double代表Vertex的值,Null代表边的
giraph.vertexOutputFormatClass-vof-org.apache.giraph.examples.VertexWithDoubleValueNullEdgeTextOutputFormat计算后,Vertex输出的实现
mapreduce.output.fileoutputformat.outputdir-op-/giraph/test/pagerank-output输出路径
giraph.minWorkers-w-1最少Worker的数量,-w参数同时作用于 giraph.minWorkers和giraph.maxWorkers
giraph.maxWorkers-w-1最多Worker的数量,-w参数同时作用于 giraph.minWorkers和giraph.maxWorkers
giraph.zkList--10.157.11.170:2181zookeeper的地址列表,用于同步
giraph.yarn.task.heap.mb-yh102410000在Yarn上运行的Worker节点的内存
giraph.partitionClass-org.apache.giraph.partition.SimplePartitionorg.apache.giraph.partition.DiskBackedPartitionPartition的实现,可以把部分数据放到磁盘
giraph.max.edges.per.segment-5120010485760当Partition在内存存放的所有顶点的边超过此阈值时,会把内存的顶点写到磁盘,作为一个segment
giraph.disk.backed.partition.edges.immutable-falsetrue在计算过程中vertex的边的信息是否不变,如果不变,则把边的信息和顶点信息存储在不同的文件里
giraph.messageStoreFactoryClass-org.apache.giraph.comm.messages.InMemoryMessageStoreFactoryorg.apache.giraph.comm.messages.DiskBackedMessageStoreFactoryDiskBackedMessageStoreFactory可以用磁盘作为存储,用于大数据量计算
giraph.max.messages.per.segment-1048576104857600当消息的数量超过此阈值时,把内存中的消息写到磁盘
giraph.userPartitionCount默认和worker的数量一致255数据分区的数量
graph.numComputeThreads-15每个Worker的计算线程数,因为共255个partiton,51个worker,所以设置为5,所有的partition都可以并行计算
giraph.numInputThreads-15输入线程的数量,输入线程的数量和partition没有关系,和数据的分片有关系,HDFS的分片是一个Block大小,本地文件系统的一个分片是32M
giraph.message.async.enabled-falsetrue消息是否异步发送到远程worker,默认同步
giraph.message.queue.size-101000消息异步发送队列大小 ,一个block是52K
giraph.message.send.thread.num-110消息异步发送的线程数

PageRank算法私有参数

参数名称简称默认值备注
giraph.computationClass--org.apache.giraph.examples.PageRankComputationVertex计算class
giraph.vertexInputFormatClass-vif-org.apache.giraph.examples.LongDoubleNullTextInputFormatLong代表Vertex Id的类型,之后的Double代表Vertex的值,Null代表边的
giraph.workerContextClass-wc-org.apache.giraph.examples.RandomWalkWorkerContext上下文class
giraph.masterComputeClass--org.apache.giraph.examples.RandomWalkVertexMasterComputeMaster的实现class
giraph.messageCombinerClass--org.apache.giraph.combiner.DoubleSumMessageCombiner消息合并的class
org.apache.giraph.examples.RandomWalkComputation.maxSupersteps-305计算迭代次数
org.apache.giraph.examples.RandomWalkComputation.teleportationProbability-0.150.15权重系数。 顶点的rank值的计算公式:rank = alpha/顶点数量 + (1 - alpha) * 其它顶点贡献的rank值之和。 当alpha比较小时,其它顶点贡献的rank值之和的权重越大,当alpha为0时,顶点的rank值只有其它顶点的贡献,如果没有其它顶点的贡献,它的rank值是0。 相反,alpha比较大,则(alpha / 顶点数量) 这部分的的比重大,最后导致各顶点的rank值越平均,如alpha是1,则每个顶点的rank值都是alpha/(number of vertices)。默认值:0.15,一般取默认值。
---

PageRank算法用户设置参数

参数名称简称默认值备注
org.apache.giraph.examples.RandomWalkComputation.maxSupersteps-305计算迭代次数
org.apache.giraph.examples.RandomWalkComputation.teleportationProbability-0.150.15-

CONVERGENCE_THRESHOLD=0.00001 是常量

WeakConnetedComponent算法私有私有参数

参数名称简称默认值备注
giraph.computationClass--org.apache.giraph.examples.LongConnectedComponentsComputationVertex计算class
giraph.vertexInputFormatClass-vif-org.apache.giraph.io.formats.DuplicateLongLongNullTextInputFormat对于读到的每1条边a->b, 生成两条边a->b和b->a
giraph.messageCombinerClass--org.apache.giraph.combiner.MinimumLongMessageCombiner只保留最小的message
giraph.vertexOutputFormatClass-vof-org.apache.giraph.io.formats.IdWithValueTextOutputFormat计算后,Vertex输出的实现
giraph.masterComputeClass--org.apache.giraph.combiner.DoubleSumMessageCombiner消息合并的class
graph.longConnectedComponents.earlyStopActiveVerticesThreshold-0.00010.0001当活动的顶点的比例小于此阈值时,计算结束

WeakConnetedComponent算法用户设置参数

参数名称简称默认值备注
graph.longConnectedComponents.earlyStopActiveVerticesThreshold-0.00010.0001当活动的顶点的比例小于此阈值时,计算结束
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值