大数据
天街小雨入江南
简单的,诚实的享受平凡。让数据回归本质
展开
-
Scala单例对象Object简介
Scala单例对象ObjectScala没有单例静态属性的说法,不过提供了单例对象object。 单独的object并不能算是类型定义(从抽象层面来说) Object是无参的(不通过new 关键字来创建没有机会来传参) Scala的单例对象不能简单的只通过一个object实现。最好是用半生类来实现。因为单独的object在spark集群模式提交的时候容易出错(spark集群模式提交,如果...原创 2018-08-27 11:05:06 · 924 阅读 · 0 评论 -
SparkStreaming读取kafka两种方式对比
SparkStreaming读取kafka两种方式对比Direct方式连接kafka数据不同于receiver方式,direct方式与kafka的partition一一对应,有多少个partition就有多少个rdd分区,offset以长整形变量的形式存在,不同应用各自维护自己的offset,默认是从最新数据开始读取。一,receiver方式读取这种方式使用Receiver来获取数...原创 2018-08-27 11:08:37 · 1169 阅读 · 0 评论 -
配置Hive递归查询子目录
配置Hive递归查询子目录Hive默认不递归查询子目录所以在创建表时,如果指定目录下有子目录会报ERROR:not a file,可以通过在hive-cli里面执行下面四条配置来在回话里面开启递归访问子目录,不会递归查询会把所有目录下面的数据加载进来,所以在子目录特别深或者子目录特别多时,速度会特别慢。配置: set hive.input.dir.recursive=true; set...原创 2018-08-27 11:11:26 · 6332 阅读 · 1 评论 -
Hadoop Federation HA部署
Hadoop Federation HA部署为什么要部署联合命名空间?大家都知道,hadoop集群的存储能力受限于namenode的内存,所以才会有所谓的小文件问题。在一些复杂的业务场景下,提高namenode性能成为了提高集群上限的有效途径。 HDFS Federation是 hdfs为了水平扩张namenode的存储性能,提供的多命名空间,基于Federation 搭建的集群在...原创 2018-08-27 10:53:39 · 302 阅读 · 0 评论 -
如何准确计算Spark On Yarn资源消耗 - spark On Yarn内存计算
spark on yarn 内存计算摘要:相信每个写spark 的 sparker 都有过 spark on yarn 的任务提交经历,或许在你集群资源够多的情况下,我们只关注分配的资源是否能另任务顺畅的跑起来,而不会去关注生成一个spark任务最终在yarn上面消耗了多少的资源。不过如果你的集群资源并没有多到任你挥霍的程度,这篇文章可以教你如何把集群资源了如指掌。1.Continer数量计...原创 2019-03-13 15:21:55 · 5015 阅读 · 2 评论