MieuxLi-CSDN博客

原创分布式计算框架MapReduce

MapReduce是Hadoop的一个离线计算框架。MapReduce由JobTracker和TaskTracker组成。JobTracker负责资源管理和作业控制，TaskTracker负责任务的运行。一、MapReduce体系结构特点1 分布式编程架构2 以数据为中心，更看重吞吐率3 分而治之4 Map将一个任务分解成多个子任务5 Reduce将分解后多个子任务分...

2019-11-15 19:06:07 369

在使用spark-submit运行工程jar包时常常会出现一下两个问题：1.在程序中手打的log（如System.out.println（“***testRdd.count=”+testRdd.count()））常常会因被下一个Job的执行日志覆盖掉而无法查看日志；2.一旦命令窗口被关闭或者电脑因断电等原因异常关闭，程序便终止运行。其中，第一个问题可以通过将运行日志重定位到文件中来解决，命令如下：spark-submit testSpark.jar > ~/testLog.out运行上条命

2020-06-15 10:45:46 1344 1

原创 PySpark的DataFrame基本操作

基本操作：运行时获取spark版本号（以spark 2.0.0为例）：sparksn = SparkSession.builder.appName("PythonSQL").getOrCreate()print sparksn.version创建和转换格式：Pandas和Spark的DataFrame两者互相转换：pandas_df = spark_df.toPandas() spark_df = sqlContext.createDataFrame(pandas_df)与Spark RD

2020-05-26 16:02:18 814

原创 spark-submit提交python任务

1、提交python文件，遇到的难点是python文件缺乏运行所需要的依赖模块。python3-mpipinstallxx我使用的是将anaconda打包放在HDFS上。基础是已经有同事在linux服务器上安装好了anaconda2，很方便。首先是将文件夹，打包成zip格式: zip -r anaconda2.zip anaconda2。然后上传文件至HDFS服务器。对于缺乏的模块，可以使用conda 或者pip进行添加。最后是运行命令spark2-submit \...

2020-05-26 15:44:42 6118

原创 27. 移除元素

给定一个数组 nums 和一个值 val，你需要原地移除所有数值等于 val 的元素，返回移除后数组的新长度。不要使用额外的数组空间，你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。元素的顺序可以改变。你不需要考虑数组中超出新长度后面的元素。示例 1:给定 nums = [3,2,2,3], val = 3,函数应该返回新的长度 2, 并且 nums 中的前两个元素均...

2019-11-15 21:43:49 140

原创 26. 删除排序数组中的重复项

给定一个包含 n 个整数的数组 nums 和一个目标值 target，判断 nums 中是否存在四个元素 a，b，c 和 d ，使得 a + b + c + d 的值与 target 相等？找出所有满足条件且不重复的四元组。注意：答案中不可以包含重复的四元组。示例：给定数组 nums = [1, 0, -1, 0, -2, 2]，和 target = 0。满足要求的四元组集合为：[...

2019-11-15 21:40:12 114

原创 18. 四数之和

给定一个包含 n 个整数的数组 nums 和一个目标值 target，判断 nums 中是否存在四个元素 a，b，c 和 d ，使得 a + b + c + d 的值与 target 相等？找出所有满足条件且不重复的四元组。注意：答案中不可以包含重复的四元组。示例：给定数组 nums = [1, 0, -1, 0, -2, 2]，和 target = 0。满足要求的四元组集合为：[...

2019-11-15 21:36:34 132

原创 16. 最接近的三数之和

给定一个包括 n 个整数的数组 nums 和一个目标值 target。找出 nums 中的三个整数，使得它们的和与 target 最接近。返回这三个数的和。假定每组输入只存在唯一答案。例如，给定数组 nums = [-1，2，1，-4], 和 target = 1.与 target 最接近的三个数的和为 2. (-1 + 2 + 1 = 2).思路：先排序, 然后遍历, 然后内部...

2019-11-15 21:34:21 127

原创 15. 三数之和

给定一个包含 n 个整数的数组 nums，判断 nums 中是否存在三个元素 a，b，c ，使得 a + b + c = 0 ？找出所有满足条件且不重复的三元组。注意：答案中不可以包含重复的三元组。例如, 给定数组 nums = [-1, 0, 1, 2, -1, -4]，满足要求的三元组集合为：[ [-1, 0, 1], [-1, -1, 2]]思路：1、将数组排序 ,...

2019-11-15 21:30:08 105

原创 11. 盛最多水的容器

给定 n 个非负整数 a1，a2，…，an，每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线，垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0)。找出其中的两条线，使得它们与 x 轴共同构成的容器可以容纳最多的水。说明：你不能倾斜容器，且 n 的值至少为 2。图中垂直线代表输入数组 [1,8,6,2,5,4,8,3,7]。在此情况下，容器能够容纳水（表示为蓝色...

2019-11-15 21:26:08 103

原创 Centos7 安装Spark

单机搭建环境要求安装JDK，参考安装Scala 2.10.4，参考安装Hadoop，参考格式化HDFS文件系统，启动Hadoop # 进入sbin/$ start-all.sh5.执行jps 查看是否正常启动$ jps30256 Jps29793 DataNode29970 SecondaryNameNode29...

2019-11-15 20:22:19 219

原创 Centos7 安装hive

1、安装hadoop，参考hadoop伪分布式搭建https://blog.csdn.net/Fhonour/article/details/1030887862、下载hive，注意hive版本与hadoop一定要一致wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz3、解压到指定目录，随你ta...

2019-11-15 19:24:05 191

原创 Centos7 安装hadoop教程

hadoop下载网址wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz1、关闭防火墙#停止防火墙，重启后失效sudo systemctl stop firewalld.service #禁用防火墙，重启后依然有...

2019-11-15 17:25:21 519

原创 Ubuntu 18.04 Server 版安装过程图文详解

原 Ubuntu 18.04 Server 版安装过程图文详解 2018年04月29日 22:28:53 阅读数：8412 ...

2018-07-07 18:00:55 8707 1

Airer的博客