![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 60
lfz_carlos
这个作者很懒,什么都没留下…
展开
-
spark streaming 编程
1. DStream 找不到 reduceByKey http://www.68idc.cn/help/jiabenmake/qita/20150115172034.html原创 2016-03-01 05:19:46 · 236 阅读 · 0 评论 -
spark streaming & storm
spark streaming 针对批处理 吞吐量大 storm 针对一条记录 及时性较高 spark生态系统兼容性差原创 2016-03-01 04:54:06 · 190 阅读 · 0 评论 -
transformation action
val num = sc.parallelize(1 to 10,3)指定3个分片(cpu)//transformationval doublenum = num.map(_*2)val threenum = doublenum.filter(_ % 3 ==0)//actiondoublenum.collect()threenum.collect()原创 2016-02-29 04:23:59 · 275 阅读 · 0 评论 -
Spark-Graph x
Graph x原创 2016-03-10 23:13:17 · 411 阅读 · 0 评论 -
Spark配置
spark基础组件运行配置参见:http://www.iteblog.com/archives/1143转载 2016-03-10 19:36:40 · 179 阅读 · 0 评论 -
scala 对比java 贴
1. trait 相当于Java的特征2. forfor(i0 until a.length)for(i=0;i3. polymorphism: 类型和方法作为参数def bubbleSort[A Ordered[A]](a:Array[A]){ for(i0 until a.length){ for(j0 until a.length){原创 2016-03-08 01:58:03 · 522 阅读 · 0 评论 -
spark&scala集合
本帖重点关注scala以及兼容到spark平台上的数据集合,包括Iterator Seq Array Set List Tuple RDDDStream1. Iterator 慎用此类型循环事特别注意,由于就是follow Iterator的概念,所以遍历一次后,往往再遍历就为空Iterator了,例如:val mydata = Sour原创 2016-03-04 03:20:03 · 340 阅读 · 0 评论 -
spark优化
1. 多次filter操作后,RDD中partition的数据量会越来越少,当很小接近于空的时候,会损耗性能 解决: 利用coalesce 或 repartition减少RDD中partition数量原创 2016-03-02 20:51:20 · 323 阅读 · 0 评论 -
spark 各组件研究
createTaskScheduler case SPARK_REGEX(sparkUrl) SparkDeploySchedulerBackend CoarseGrainedExecutorBackend case LaunchTask(data) (1)原创 2016-03-02 19:13:40 · 706 阅读 · 0 评论 -
spark MLlib
1. kmeans kmeans++ 解决kmeans的初值点个数设置,点位置初始化问题,具体: 利用区间采样的方法=> 在一组数据中怎么随机选取值较大的数,例如选取若干个学习好的学生? kmeans++步骤: 从输入的数据点原创 2016-03-01 20:00:54 · 512 阅读 · 0 评论 -
spark streaming
Streaming general structureDStream操作场景 无状态 只考虑一个RDD 状态 考虑一组RDDs的累加值 window 窗口长度 滑动长度code structure://一秒采样一次数据val ssc = new原创 2016-03-01 04:02:20 · 386 阅读 · 0 评论