spark
Running_you
这个作者很懒,什么都没留下…
展开
-
关于spark提交作业报错原因
spark提供了scala,java及python等脚本作业的功能,但是在实际运行中很容易卡在sc初始化问题上,这里主要原因在于启动spark环境后系统会自建sc环境,若用户在脚本中新建sc将会报错,但是不使用sc又难以达到脚本的效果,这里提供python脚本的提交方法说明: spark-submit –master local[4] svm.py而其中关于svm.py的内容则应该这么写:fr原创 2015-11-12 17:09:22 · 2021 阅读 · 0 评论 -
关于spark运行FP-growth算法报错com.esotericsoftware.kryo.KryoException
Spark运行FP-growth异常报错在spark1.4版上尝试运行频繁子项挖掘算法是,照搬官方提供的python案例源码时,爆出该错误com.esotericsoftware.kryo.KryoException (java.lang.IllegalArgumentException: Can not set final scala.collection.mutable.ListBuffer f原创 2016-02-05 10:49:37 · 4116 阅读 · 0 评论 -
spark组件之graphx函数方法(一)
aggregateMessages类graph提供了聚合方法aggregateMessages,关于使用方法官方给出了具体的案例参考:// Import random graph generation libraryimport org.apache.spark.graphx.util.GraphGenerators// Create a graph with "age" as the vert原创 2016-06-07 18:08:34 · 2202 阅读 · 0 评论 -
实时计算实践(spark streaming+kafka+hdfs)
一直在研究大数据处理方向的各种技术和工具,但没有真正用于实践中,恰好目前风控措施转向,需要实施“在线+离线”的双线防控措施,遂在调研查阅相关文档后,决定从零开始构造(数据挖掘转工程开发,思维转变是关键),这里面涉及的几个阶段慢慢说来:项目开发环境选择(scala IDE +maven) 最开始的选择是直接在eclipse环境上安装scala的IDE插件,但实践证明此种方式很不稳定,受限于网络的限原创 2016-09-19 20:35:23 · 8341 阅读 · 0 评论 -
图并行计算实践(二)(spark streaming+graphx+kafka)
上回利用transform方法实现对于数据流的图并行计算过程,今天继续改进完善已有的计算机制,加入updateStateByKey和checkpoint机制,保障图并行计算在故障中仍能保证零误差。import kafka.serializer.StringDecoderimport org.apache.spark.streaming._import org.apache.spark.strea原创 2016-09-26 17:21:43 · 1684 阅读 · 0 评论 -
图并行计算实践(一)(spark streaming+graphx+kafka)
上回使用spark streaming实现从kafka中获取实时数据流,进而实现简单业务计算需求,这两天打算将两者的计算复杂度提升,决定引进graphx组件,实现对于复杂图关系的计算,希望在未来某天实现标签图,概率图等实时的并行计算,下面实现的一个简单需求,在周期时间内计算节点的出度关系,例子如下:import kafka.serializer.StringDecoderimport org.ap原创 2016-09-24 12:01:10 · 2431 阅读 · 0 评论 -
Spark数据类型SparseMatrix
SparseMatrixSpark的mllib包中提供了机器学习的两种基本数据类型: DenseMatrix(稠密)和 SparseMatrix(稀疏),在初始化对象的时候可以使用Matrices伴生对象产生,先看下示例代码:import org.apache.spark.mllib.linalg.{Matrix, Matrices}// Create a dense matrix ((1.0, 2原创 2017-01-05 09:58:55 · 5061 阅读 · 3 评论