学习AI算法,请关注微信公众号:机器学习算法全栈工程师……

对机器学习,深度学习QQ群:252682362。注明自己是机器学习爱好者!

Spark问题集锦

使用外部链接对象(如Jedis客户端)在Streaming RDD中发送数据时,一定要使用单例。否则会出现各种Bug。 在IDEA中使用maven混合Scala和Java打Jar包时,Java的类要写在Java目录里。如果将Java类定义在scala目录下,会出现 NoClassDefFoundE...

2017-12-28 21:36:34

阅读数:204

评论数:0

Spark 常见问题解决方案

Spark 常见问题收集,并给出相应的解决方案。分享给大家,希望大家不要走弯路……

2017-12-23 14:40:53

阅读数:2230

评论数:0

Spark资源调优

0. 概述  在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有...

2017-12-23 13:24:32

阅读数:1067

评论数:0

Spark Streaming之妙用foreachRDD和foreachPartition

0. 前言  DStream中的foreachRDD是一个非常强大函数,它允许你把数据发送给外部系统。因为输出操作实际上是允许外部系统消费转换后的数据,它们触发的实际操作是DStream转换。所以要掌握它,对它要有深入了解。下面有一些常用的错误需要理解。经常写数据到外部系统需要创建一个连接的对象(...

2017-12-20 21:24:24

阅读数:1807

评论数:0

Spark写ES的遇到的坑

由于项目需要,最近搞Spark Streaming做数据分析,并最终将分析完的数据写入ElasticSearch。我们项目使用的是Spark 2.1.0,而我们公司的ElasticSearch版本使用的是2.1.2。项目过程中遇到了很多坑,浪费了不少时间,故此在这里总结一下,希望大家以后免于趟这些...

2017-04-11 20:31:50

阅读数:7104

评论数:6

Spark RDD API详解

1. RDD简单介绍      RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所...

2017-01-03 21:13:33

阅读数:685

评论数:7

SparkContext的parallelize

在一个Spark程序的开始部分,有好多是用sparkContext的parallelize制作RDD的,是ParallelCollectionRDD,创建一个并行集合。例如sc.parallelize(0 until numMappers, numMappers)创建并行集合的一个重要参数,是sl...

2016-12-27 09:55:48

阅读数:1584

评论数:10

提示
确定要删除当前文章?
取消 删除
关闭
关闭