spark
文章平均质量分 72
leebhing
这个作者很懒,什么都没留下…
展开
-
Scala:fold,foldLeft和foldRight区别与联系
从本质上说,fold函数将一种格式的输入数据转化成另外一种格式返回。fold, foldLeft和foldRight这三个函数除了有一点点不同外,做的事情差不多。我将在下文解释它们的共同点并解释它们的不同点。 我将从一个简单的例子开始,用fold计算一系列整型的和。val numbers = List(5, 4, 8, 6, 2) numbers.fold(0) { (z, i) =>转载 2017-08-23 11:43:01 · 509 阅读 · 0 评论 -
spark使用自定义Hadoop的FileInputFormat读取hdfs上的数据
比如:一个300MB的文件,其中包含6条记录,每条记录300/6=50MB,该文件在hdfs上分了3个block,每个block为128MB,如上图,第3、6个记录跨block了。如下图所示。为了处理改文件,spark在每个数据节点上创建executor,这些executor负责读取自己的数据。Block 1 上的Executor 1 读取3条记录作为输入,其中本地读Line1、Lin...原创 2018-07-25 14:44:28 · 3948 阅读 · 0 评论 -
sparkStreaming 连接数据库 --设计模式
https://blog.csdn.net/dean_wanghw/article/details/53612945当我们遇到需要用sparkStreaming来保存处理的数据时,自然会想到用ojdbc.但是当我们真正去实现她的时候会发现,用spark Streaming来处理数据库连接是一件有点麻烦的事情,下面是针对spark-streaming_2.11来处理的。 destream.forea...转载 2018-06-05 19:18:41 · 1087 阅读 · 0 评论 -
akka actor
Scala Actor 简介Actor提供了并发程序中与传统的基于锁的结构不同的另一种选择。通过尽可能避免锁和共享状态,Actor使得我们能够更加容易设计出正确、没有死锁或争用状态的程序。Scala类库提供了一个Actor模型的简单实现,除此之外还有其他更高级的Actor类库,比如Akka(http://akka.io)。在 actor 并发模型中, actor 是独立的软件实体, 它们之间并不共...转载 2018-05-23 15:21:43 · 302 阅读 · 0 评论 -
Spark+RedisPool
一个实时项目需要用到Kafka+Spark streaming+Redis,在spark streaming中将计算结果实时存入redis,由于是分布式计算,创建redis pool的时候出现无法序列化的问题,借鉴了以下博文:http://shiyanjun.cn/archives/1097.html,解决了无法序列化的问题,但是方法一(即使用lazy懒加载的机制)中,redis的的配置(host原创 2018-02-25 10:59:39 · 3507 阅读 · 1 评论 -
HiveContext和SQLContext
使用SparkSQL时注意HiveContext和SQLContext的关系:见源码:class HiveContext(sc : org.apache.spark.SparkContext) extends org.apache.spark.sql.SQLContext with org.apache.spark.Logging {SqlContext: 应该是对应spark原创 2018-02-25 10:48:31 · 7090 阅读 · 2 评论 -
Spark RDD的缓存 rdd.cache() 和 rdd.persist()
RDD的缓存级别顺便看一下RDD都有哪些缓存级别,查看 StorageLevel 类的源码:object StorageLevel { val NONE = new StorageLevel(false, false, false, false) val DISK_ONLY = new StorageLevel(true, false, false, false) val转载 2017-12-21 18:20:08 · 847 阅读 · 0 评论 -
spark连接es的问题java.lang.ClassNotFoundException:org.elasticsearch.client.transport.NoNodeAvailableExcep
跑spark任务:daily.out.20171012的日志中有如下错误:17/10/17 15:51:06 WARNspark.ThrowableSerializationWrapper: Task exception could not be deserializedjava.lang.ClassNotFoundException:org.elasticsearch.client.原创 2017-11-08 17:33:37 · 8183 阅读 · 0 评论 -
spark任务中报连接不到hbase的错误
17/10/16 20:51:22 INFOzookeeper.ClientCnxn: Opening socket connection to serverlocalhost/0:0:0:0:0:0:0:1:2181. Will not attempt to authenticate using SASL (unknownerror)17/10/16 20:51:22 WARNzooke原创 2017-11-08 17:26:47 · 4347 阅读 · 0 评论 -
spark中出现org.apache.htrace找不到的错误
在CDH中,开发的spark连接Hbase的时候,往往会出现找不到org.apache.htrace包。具体错误如下:? ? ? ERROR TableInputFormat: java.io.IOException:?? ? ? java.lang.reflect.InvocationTargetException? ? ?Caused by: java.lang.NoC原创 2017-11-08 15:55:44 · 8554 阅读 · 0 评论 -
spark.sql.sources.parallelPartitionsDiscovery.threshold
streamingdumping运行多天后出现,每个batch多了一个Job(38/38的job),而且该任务的耗时比较长,会使任务积压,driver的日志如下:2019-01-29 11:55:01,631 INFO datasources.PartitioningAwareFileIndex: Listing leaf files and directories in parallel...原创 2019-01-29 19:39:49 · 1606 阅读 · 0 评论