Spark
SUDDEV
这个作者很懒,什么都没留下…
展开
-
带你入门GeoSpark系列之三【空间查询篇】
系列目录带你入门GeoSpark系列之一【环境篇】带你入门GeoSpark系列之二【Spatial RDD篇】带你入门GeoSpark系列之三【空间查询篇】1.空间范围查询( Spatial Range Query)空间范围查询,顾名思义我们可以给定一个范围(query window),然后查询出包含在当前范围内的地理对象。1.1 数据准备创建checkin1.csv在 data/...原创 2020-04-16 19:33:12 · 3514 阅读 · 9 评论 -
带你入门GeoSpark系列之二【Spatial RDD篇】
系列目录带你入门GeoSpark系列之一【环境篇】带你入门GeoSpark系列之二【Spatial RDD篇】带你入门GeoSpark系列之三【SQL&空间查询&索引篇】1、基本地理数据概念GeoSpark本质还是对地理要素进行操作,所以它支持了常用的一些地学几何图形。几何图形中主要有三个要素:点,线,面。横纵坐标构成点,多个点构成线,环线构成面,点线面混合构成几何集...原创 2020-02-11 15:55:07 · 3758 阅读 · 6 评论 -
带你入门GeoSpark系列之一【环境篇】
前言由于项目需要处理一些地理空间数据,而原生Spark不能满足,这几天捣鼓GeoSpark有一些收获,开个坑总结一下。GeoSpark介绍GeoSpark是基于Spark之上的分布式群集计算系统。GeoSpark扩展了Spark Core和SparkSQL并提出了空间弹性分布式数据集(Spatial Resilient Distributed Datasets (SRDDs))同时提供了可视...原创 2020-02-11 13:06:10 · 3323 阅读 · 0 评论 -
解决spark on yarn每次都上传$SPARK_HOME/jars的问题
1.前言每次提交Spark on Yarn作业时, Spark都会把$SPARK_HOME/jars下的jar打包成zip上传到hdfs分布式缓存中这样在生产上是不合适的,会浪费不必要的网络资源2.官方说明http://spark.apache.org/docs/latest/running-on-yarn.html如果我们在使用Spark on Yarn时如果为设置spark.ya...原创 2019-10-24 15:08:40 · 1185 阅读 · 0 评论