自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Airer的博客

I'm here

  • 博客(14)
  • 收藏
  • 关注

原创 分布式计算框架MapReduce

MapReduce是Hadoop的一个离线计算框架。MapReduce由JobTracker和TaskTracker组成。JobTracker负责资源管理和作业控制,TaskTracker负责任务的运行。一 、MapReduce体系结构特点1 分布式编程架构2 以数据为中心,更看重吞吐率3 分而治之4 Map将一个任务分解成多个子任务5 Reduce将分解后多个子任务分...

2019-11-15 19:06:07 357

转载 后台运行spark-submit命令的方法

在使用spark-submit运行工程jar包时常常会出现一下两个问题:1.在程序中手打的log(如System.out.println(“***testRdd.count=”+testRdd.count()))常常会因被下一个Job的执行日志覆盖掉而无法查看日志;2.一旦命令窗口被关闭或者电脑因断电等原因异常关闭,程序便终止运行。其中,第一个问题可以通过将运行日志重定位到文件中来解决,命令如下:spark-submit testSpark.jar > ~/testLog.out运行上条命

2020-06-15 10:45:46 1301 1

原创 PySpark的DataFrame基本操作

基本操作:运行时获取spark版本号(以spark 2.0.0为例):sparksn = SparkSession.builder.appName("PythonSQL").getOrCreate()print sparksn.version创建和转换格式:Pandas和Spark的DataFrame两者互相转换:pandas_df = spark_df.toPandas() spark_df = sqlContext.createDataFrame(pandas_df)与Spark RD

2020-05-26 16:02:18 803

原创 spark-submit提交python任务

1、提交python文件,遇到的难点是python文件缺乏运行所需要的依赖模块。python3-mpipinstallxx我使用的是将anaconda打包放在HDFS上。基础是已经有同事在linux服务器上安装好了anaconda2,很方便。首先是将文件夹,打包成zip格式: zip -r anaconda2.zip anaconda2。然后上传文件至HDFS服务器。对于缺乏的模块,可以使用conda 或者pip进行添加。最后是运行命令spark2-submit \...

2020-05-26 15:44:42 6021

原创 27. 移除元素

给定一个数组 nums 和一个值 val,你需要原地移除所有数值等于 val 的元素,返回移除后数组的新长度。不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。元素的顺序可以改变。你不需要考虑数组中超出新长度后面的元素。示例 1:给定 nums = [3,2,2,3], val = 3,函数应该返回新的长度 2, 并且 nums 中的前两个元素均...

2019-11-15 21:43:49 127

原创 26. 删除排序数组中的重复项

给定一个包含 n 个整数的数组 nums 和一个目标值 target,判断 nums 中是否存在四个元素 a,b,c 和 d ,使得 a + b + c + d 的值与 target 相等?找出所有满足条件且不重复的四元组。注意:答案中不可以包含重复的四元组。示例:给定数组 nums = [1, 0, -1, 0, -2, 2],和 target = 0。满足要求的四元组集合为:[...

2019-11-15 21:40:12 104

原创 18. 四数之和

给定一个包含 n 个整数的数组 nums 和一个目标值 target,判断 nums 中是否存在四个元素 a,b,c 和 d ,使得 a + b + c + d 的值与 target 相等?找出所有满足条件且不重复的四元组。注意:答案中不可以包含重复的四元组。示例:给定数组 nums = [1, 0, -1, 0, -2, 2],和 target = 0。满足要求的四元组集合为:[...

2019-11-15 21:36:34 122

原创 16. 最接近的三数之和

给定一个包括 n 个整数的数组 nums 和 一个目标值 target。找出 nums 中的三个整数,使得它们的和与 target 最接近。返回这三个数的和。假定每组输入只存在唯一答案。例如,给定数组 nums = [-1,2,1,-4], 和 target = 1.与 target 最接近的三个数的和为 2. (-1 + 2 + 1 = 2).思路:先排序, 然后遍历, 然后内部...

2019-11-15 21:34:21 119

原创 15. 三数之和

给定一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a + b + c = 0 ?找出所有满足条件且不重复的三元组。注意:答案中不可以包含重复的三元组。例如, 给定数组 nums = [-1, 0, 1, 2, -1, -4],满足要求的三元组集合为:[ [-1, 0, 1], [-1, -1, 2]]思路:1、将数组排序 ,...

2019-11-15 21:30:08 98

原创 11. 盛最多水的容器

给定 n 个非负整数 a1,a2,…,an,每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线,垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0)。找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。说明:你不能倾斜容器,且 n 的值至少为 2。图中垂直线代表输入数组 [1,8,6,2,5,4,8,3,7]。在此情况下,容器能够容纳水(表示为蓝色...

2019-11-15 21:26:08 90

原创 Centos7 安装Spark

单机搭建环境要求 安装JDK,参考 安装Scala 2.10.4,参考 安装Hadoop,参考 格式化HDFS文件系统,启动Hadoop # 进入sbin/$ start-all.sh5.执行jps 查看是否正常启动$ jps30256 Jps29793 DataNode29970 SecondaryNameNode29...

2019-11-15 20:22:19 207

原创 Centos7 安装hive

1、安装hadoop,参考hadoop伪分布式搭建https://blog.csdn.net/Fhonour/article/details/1030887862、下载hive,注意hive版本与hadoop一定要一致wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz3、解压到指定目录,随你ta...

2019-11-15 19:24:05 182

原创 Centos7 安装hadoop教程

hadoop下载网址wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz1、关闭防火墙#停止防火墙,重启后失效sudo systemctl stop firewalld.service #禁用防火墙,重启后依然有...

2019-11-15 17:25:21 512

原创 Ubuntu 18.04 Server 版安装过程图文详解

原 Ubuntu 18.04 Server 版安装过程图文详解 2018年04月29日 22:28:53 阅读数:8412 ...

2018-07-07 18:00:55 8678 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除