scala
leebhing
这个作者很懒,什么都没留下…
展开
-
akka actor
Scala Actor 简介Actor提供了并发程序中与传统的基于锁的结构不同的另一种选择。通过尽可能避免锁和共享状态,Actor使得我们能够更加容易设计出正确、没有死锁或争用状态的程序。Scala类库提供了一个Actor模型的简单实现,除此之外还有其他更高级的Actor类库,比如Akka(http://akka.io)。在 actor 并发模型中, actor 是独立的软件实体, 它们之间并不共...转载 2018-05-23 15:21:43 · 294 阅读 · 0 评论 -
sparkStreaming 连接数据库 --设计模式
https://blog.csdn.net/dean_wanghw/article/details/53612945当我们遇到需要用sparkStreaming来保存处理的数据时,自然会想到用ojdbc.但是当我们真正去实现她的时候会发现,用spark Streaming来处理数据库连接是一件有点麻烦的事情,下面是针对spark-streaming_2.11来处理的。 destream.forea...转载 2018-06-05 19:18:41 · 1073 阅读 · 0 评论 -
spark使用自定义Hadoop的FileInputFormat读取hdfs上的数据
比如:一个300MB的文件,其中包含6条记录,每条记录300/6=50MB,该文件在hdfs上分了3个block,每个block为128MB,如上图,第3、6个记录跨block了。如下图所示。为了处理改文件,spark在每个数据节点上创建executor,这些executor负责读取自己的数据。Block 1 上的Executor 1 读取3条记录作为输入,其中本地读Line1、Lin...原创 2018-07-25 14:44:28 · 3913 阅读 · 0 评论 -
spark.sql.sources.parallelPartitionsDiscovery.threshold
streamingdumping运行多天后出现,每个batch多了一个Job(38/38的job),而且该任务的耗时比较长,会使任务积压,driver的日志如下:2019-01-29 11:55:01,631 INFO datasources.PartitioningAwareFileIndex: Listing leaf files and directories in parallel...原创 2019-01-29 19:39:49 · 1570 阅读 · 0 评论