pyspark
爱睡懒觉的老舅
GISer一枚,好好学习技术
展开
-
大数据学习总结(SparkSQL/PySpark空间计算)
这里加个大数据学习总结,希望以后能多加学习!1、280亿条大数据处理实战(SparkSQL+Hive);(包括六部分)2、PySpark空间计算学习总结(PySpark);(包括六部分)原创 2021-11-07 23:19:21 · 1798 阅读 · 0 评论 -
PySpark空间计算学习总结—(6)PySpark实战例一处理7500w人口大数据
一、前沿说明需求:目前手上有 7500w 条全国人口数据(点数据,有四个字段,分别是时间、经度、维度、标记),csv 格式。现在要找到哪些数据在广东省内。分析:可以将人口数据与广东省行政区进行求交集,即点数据和面数据求交集,则可以得出在广东省境内的人口数据。方法:这里用 GDAL 中的 ogr 求交集方法。首先读取广东省行政区划数据(广东省行政区划数据为 shp 格式,是一个面数据),构造成...原创 2020-03-31 23:44:49 · 772 阅读 · 2 评论 -
PySpark空间计算学习总结—(5)编程算子
RDD 算子分为 Transformation 算子(转换算子)和 Action 算子(行动算子)一、Transformation 算子通过转换算子,将一个 RDD 转换为另外一个 RDD,类似于 y=f(x) 的计算,比如:rddb = rdda.map(...)。注意:转换算子不计算出结果,只记录作用到了哪些数据集上去,比如只记录了 map、filter,不算出结果。不触发提交作业...原创 2020-03-23 16:36:29 · 405 阅读 · 0 评论 -
PySpark空间计算学习总结—(4)Spark Core核心RDD
Spark 最重要的是 RDD,SparkSQL、SparkStreaming是构建在 RDD 之上的。一、什么是 RDDRDD:Resilient Distributed Dataset 弹性、分布式、数据集它在源码中为:abstract class RDD[T:ClassTag]( @transient private var _sc:SparkContext, @t...原创 2020-03-21 17:55:53 · 375 阅读 · 0 评论 -
python空间计算学习总结PySpark—(3)验证 Windows10 中 PySpark大数据程序开发(在 PyCharm 和 jupyter notebook)
1、在 PyCharm 里面运行大数据程序(1)PyCharm 配置默认 Anaconda 环境打开 PyCharm,在 File->Default Setting->Project Interpreter 里面点击“Add Local”选择第三个System Interpreter,然后将路径选为anaconda安装路径下的python.exe,确定后成功配置...原创 2020-02-12 21:35:34 · 523 阅读 · 0 评论 -
python空间计算学习总结PySpark—(2)python大数据环境安装
1、首先安装 Anaconda Python3 版本直接官网下载,一步步安装即可(此处不再赘述);安装完可将 windows10 里面默认的 python 换成 anaconda 里面 python 的版本(我这里换成了 python3),在 cmd 中输入 python 如下所示:2、安装 Py4J在 cmd 中输入 pip install py4j,然后在 cmd 中输入:...原创 2020-02-12 21:36:39 · 379 阅读 · 0 评论 -
python空间计算学习总结PySpark—(1)windows10大数据环境安装
本文主要讲windows10里面大数据环境的安装,下一篇讲python环境安装及大数据程序测试1、本机windows10电脑安装的环境为(后面有百度云下载链接):hadoop-2.7.6jdk-8u171(jdk8的小版本也尽量高点)scala-2011.8spark-2.3.1-bin-hadoop2.7winutils.exe注意:(1)上述文件下载解压缩安装就...原创 2020-02-12 21:36:23 · 427 阅读 · 2 评论 -
PySpark空间计算学习总结
之前工作中有时涉及到空间大数据的处理运算,最近由于新型冠状病毒在家隔离,故学习了下PySpark空间计算方面的,又解锁了一项新技术,甚是高兴,故记录之。本文的环境是在windows10里面,想作为一个系列学习笔记来记录,希望自己能坚持!一、windows10大数据环境安装二、python环境安装和大数据程序测试...原创 2020-02-12 21:35:56 · 425 阅读 · 2 评论