大数据
风碎峰
我本微末凡尘,却也心向天空!
展开
-
GeoTrellis使用初探
概述进行到该阶段,我们假设您已经完成了geotrellis 版本选型和环境搭建;熟悉本公司的大数据架构原理;初步了解了geotrellis,并且在开发环境中构建了geotrellis配置;可以参考官方文档和有关资料,运行其给出的demo示例,那么恭喜您,可以愉快地进入该阶段。如果您未经历或完成上述阶段,请参考公司相关文档:《geotrellis 版本选型和环境搭建》《飞未...原创 2018-12-11 18:19:00 · 907 阅读 · 0 评论 -
Geotrellis-spark-hbase-json
背景概述应老板要求,指定我去搞定公司影像数据切片、存储至hbase后发map服务。数据处理方面,公司采用了Geotrellis-spark-ETL架构,之前处理好的数据一直存储到HDFS或者Accumulo中。鉴于处理后的数据产生太多小文件,对公司集群有压力,而Accumulo又是小众化,相应的开发,维护等等方面的资料奇缺,性能也不理想,所以老板考虑将数据全部迁移到hbase中。过程...原创 2019-08-07 10:44:33 · 587 阅读 · 8 评论 -
Spark-ETL测试
Geotrellis-spark-etl测试前提条件进行到这一阶段,我们假设你已经具备了基本的spark,scala开发的能力,对Geotrellis也已经并不陌生,至少我们假设你已经使用过它,实现了一些简单的示例。如果你没有具备以上条件,请自行参考相关资料,比如官方文档(强力推荐),同时我们也提供了《Geotrellis使用初探》,应该会对您有所帮助。在开始...原创 2019-05-22 10:44:37 · 985 阅读 · 2 评论 -
Spark作业运行时,报错java.io.IOException: Mkdirs failed to create directory file:/home/tmp/catalog/example/
今天在公司集群上将自己打好的jar扔上去,以spark2-submit脚本提交作业,等到接近中午时候,回头去看,发现报错:Job aborted due to stage failure: Task 10 in stage 6.0 failed 4 times, most recent failure: Lost task 10.3 in stage 6.0 (TID 123, ...原创 2019-05-20 13:11:53 · 4436 阅读 · 8 评论 -
Spark集群调试,测试实录
背景概述 基于yarn模式的spark集群,共8个节点。其中,Hadoop和spark均采用CDH5.12.1版本,独立一个节点部署Cloudera Manager Server5,NameNode和SecondNameNode部署于同一个的机器上。这是一个小型的用于生产环境测试、开发的集群,通过Cloudera manager 管理控制控制平台进行管理和监控。在...原创 2019-04-25 10:04:51 · 758 阅读 · 0 评论 -
spark2-shell启动spark2报错
1、spark2-shell命令启动spark2后,抛出异常,关键错误信息如下图:仔细查看错误信息之后发现,原来是yarn配置的内存不够,spark启动需要1024+384 MB的内存,但是我的yarn配置仅有1024 MB,不够满足spark启动要求,所以抛出异常。解决方法 录Cloudera Manager,找到YARN (MR2 Included),点击进入,如图...原创 2018-11-12 17:42:41 · 1094 阅读 · 0 评论 -
Spark开发环境搭建(Spark2.2+IDEA2018.2.6)
一、安装单机模式Spark1.Spark运行环境2.Spark下载下载地址:http://spark.apache.org/downloads.html搭Spark不需要Hadoop,如有Hadoop集群,可下载相应的版本。我选择了Spark2.2版本,对应Hadoop2.7。3.解压4.Spark目录bin包含用来和Spark交互的...原创 2018-11-15 15:32:35 · 236 阅读 · 0 评论