瓜牛呱呱的博客

最美的不是下雨天,是曾与你躲过雨的屋檐

RDD、DataFrame和DataSet三者的关系

http://developer.51cto.com/art/201603/507668.htm推荐:http://blog.csdn.net/wo334499/article/details/51689549

2017-06-19 18:16:56

阅读数 413

评论数 0

Nginx日志中字段解析——正则表达式

([^ ]*) ([^ ]*) ([^ ]*) (\[.*\]) (\".*?\") (-|[0-9]*) (-|[0-9]*) (\".*?\") (\".*?\")来源:https://www.iteblog.com/archives...

2017-06-16 16:13:05

阅读数 2730

评论数 0

Spark本地化调度

Spark的task一般都会分发到它所需数据的那个节点,这称之为”NODE_LOCAL”。但在资源不足的情况下,数据所在节点未必有资源处理task,因此Spark在等待了“spark.locality.wait”所配置的时间长度后,会退而求其次,分发到数据所在节点的同一个机架的其它节点上,这是“R...

2017-06-16 14:39:33

阅读数 322

评论数 0

SparkStreaming 中 Kafka 参数 auto.offset.reset 的说明

作用:如果Kafka中没有初始偏移或者当前偏移在服务器上不再存在时(例如,因为该数据已被删除)的处理方法。 Kafka单独写consumer时 可选参数: earliest:自动将偏移重置为最早的偏移量 latest:自动将偏移量重置为最新的偏移量(默认) none:如果consume...

2017-06-16 11:22:38

阅读数 2349

评论数 0

HBase中RegionServer Split的过程(翻译)

将region进行锁定,防止修改,然后在Zookeeper中创建一个节点,并将改节点修改为SPLITTING HMaster知道了该Region正在分裂 RegionServer在HDFS的region目录下创建.split的子目录 RegionServer关闭Region,并将其标记为离线状态,...

2017-06-09 18:06:30

阅读数 379

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭