hadoop
爱睡懒觉的老舅
GISer一枚,好好学习技术
展开
-
python空间计算学习总结PySpark—(3)验证 Windows10 中 PySpark大数据程序开发(在 PyCharm 和 jupyter notebook)
1、在 PyCharm 里面运行大数据程序(1)PyCharm 配置默认 Anaconda 环境打开 PyCharm,在 File->Default Setting->Project Interpreter 里面点击“Add Local”选择第三个System Interpreter,然后将路径选为anaconda安装路径下的python.exe,确定后成功配置...原创 2020-02-12 21:35:34 · 518 阅读 · 0 评论 -
python空间计算学习总结PySpark—(2)python大数据环境安装
1、首先安装 Anaconda Python3 版本直接官网下载,一步步安装即可(此处不再赘述);安装完可将 windows10 里面默认的 python 换成 anaconda 里面 python 的版本(我这里换成了 python3),在 cmd 中输入 python 如下所示:2、安装 Py4J在 cmd 中输入 pip install py4j,然后在 cmd 中输入:...原创 2020-02-12 21:36:39 · 376 阅读 · 0 评论 -
python空间计算学习总结PySpark—(1)windows10大数据环境安装
本文主要讲windows10里面大数据环境的安装,下一篇讲python环境安装及大数据程序测试1、本机windows10电脑安装的环境为(后面有百度云下载链接):hadoop-2.7.6jdk-8u171(jdk8的小版本也尽量高点)scala-2011.8spark-2.3.1-bin-hadoop2.7winutils.exe注意:(1)上述文件下载解压缩安装就...原创 2020-02-12 21:36:23 · 424 阅读 · 2 评论 -
280亿条大数据处理实战——(三)环境安装
此节主要讲述 hdfs 的基本使用和 Spark 编译及其遇到的坑。一、Spark编译编译 spark 是个很复杂的过程。1、编译方法(1)方式一(推荐使用此种方法):使用 make-distribution.sh 进行编译:在 $SPARK_HOME 目录下,输入并允许如下命令:./dev/make-distribution.sh --name 2.6.0-cdh5.7...原创 2019-06-28 17:16:15 · 375 阅读 · 0 评论 -
280亿条大数据处理实战—总起
最近部门需要处理 280 亿条移动信令数据,有 200 个文件,每个文件 5000 多万条数据。每个文件由七个字段组成,分别是:gridt1(栅格起始时间)、gridt2(栅格结束时间)、startgrid(起点位置编号)、endgrid(终点位置编号)、userid(用户id)、belongid(归属地位置编号)、middleid(中间记录删除标记表) 现有一个全国各地区省市区县的文...原创 2019-06-27 15:57:20 · 475 阅读 · 1 评论 -
280亿条大数据处理实战—(一)linux基本使用
Spark是最适合运行在 linux 系统和 mac 系统的(当然 Windows 也可以安装,但是比较麻烦,不建议在 Windows 上安装),实在不行可以自己在 Windows上安装一个虚拟机,虚拟机上安装centos系统。学习大数据必须之前要学习一些 linux 系统的基本操作。如下是我在使用中吐血总结的一些最基本的操作:1、编辑完后保存退出:先按Esc键,通过vim的":wq...原创 2019-06-27 15:58:10 · 494 阅读 · 0 评论 -
280亿条大数据处理实战——(四)解决方案一
问题是找出 280 亿条数据里面起点位置所在的经纬度省市区等信息、终点位置所在的经纬度省市区等信息,而且要根据天数来分出来(大概是 21 天)。其实就在 280 亿条数据里面增加 14 个字段。如果是小数据量,直接在数据库中 join 就行了,但是数据量一大,很多方法就不可用了。初步想到的是将数据存放在 hive 里面,然后在 spark-sql 里面执行插入操作。第一个解决方案如下:1、...原创 2019-06-27 15:59:15 · 372 阅读 · 0 评论 -
280亿条大数据处理实战——(五)解决方案二
上面一篇讲到过,第一种方案有很多问题,于是问了很多人和做了较多实验有了第二种方案。第二种方案需要提前了解如下知识:一、hive 表修复hive 表修复网上有很多例子,这里可以简单理解为通过修复,可以直接快速的将 hdfs 与 hive 表进行关联。导入到 hdfs 里面的数据可以直接在 hive 表里面查询得到,同样的,在 hive 表里面进行增删改查也可以在 hdfs 里面查询得到,这样...原创 2019-06-27 15:59:43 · 421 阅读 · 2 评论 -
280亿条大数据处理实战——(二)环境安装
使用spark之前需要安装如下环境:一、安装包下载1、jdk 下载本文使用的是jdk1.8.0_91,直接官网下载的,或者直接在这里下载(https://download.csdn.net/download/ocean111best/11257045),建议使用jdk1.8以上版本,低版本问题较多。2、maven 下载本文使用的是apache-maven-3.6....原创 2019-06-27 15:58:32 · 265 阅读 · 0 评论