快跑快跑！！-CSDN博客

原创 spark作业

病人数量、平均身高、体重最大值、收缩压方差按体重升序、舒张压降序排序并输出使用sbt对Scala独立应用程序进行编译打包结果输出会过多，将结果保存file:///usr/local/spark/patients3.csv > output.log，在output.log中抓取grep有用结果结果截图：体重和舒张压可以在output中看部分结果：体重升序舒张压降序。

2023-12-20 23:18:14 237

执行结束以后，可以看到，已经生成了数据文件 “/usr/local/spark/mycode/exercise/peopleage/peopleage.txt”。/usr/local/spark/mycode/exercise/peopleage/src/main/scala这个目录是专门用来保存scala代码文件的。下面，在这个目录下/usr/local/spark/mycode/exercise/peopleage使用sbt。执行结束以后，可以看到，已经生成了数据文件peopleage.txt。

2023-12-07 17:40:47 313

原创编写Spark应用程序

2.程序依赖 Spark API，因此我们需要通过 sbt 进行编译打包。在~/sparkapp这个目录中新建文件simple.sbt。1.在 ./sparkapp/src/main/scala 下建立一个名为 XXXApp.scala 的文件。使用sbt对Scala独立应用程序进行编译打包。3.使用sbt编译打包工具对代码文件进行编译打包。4.使用spark-submit命令运行程序。只需要改类名，有文件输入需求才加第四行。在.scala文件中写入代码。--class "类名" \。

2023-12-07 14:45:39 325

原创在spark shell中完成RDD基本操作

（例1）12345678910newnew1to 10) //创建RDDval map = rdd.map(_*2) //对RDD中的每个元素都乘于2sc.stop()键入5、6、7行：输出：(RDD依赖图：红色块表示一个RDD区，黑色块表示该分区集合，下同)例8：12345678//省略sc.stop输出：（RDD依赖图）

2023-12-05 23:59:54 546

原创 Spark安装和编程实践（Spark2.4.0）

在上面的配置信息中，scalaVersion用来指定scala的版本，sparkcore用来指定spark的版本，这两个版本信息都可以在之前的启动 Spark shell 的过程中，从屏幕的显示信息中找到。需要注意的是，本教程内容中Spark采用Local模式进行安装，也就是在单机上运行Spark，因此，在安装Hadoop时，需要按照伪分布式模式进行安装。之所以第一次运行sbt编译打包命令速度很慢，是因为这个过程需要到国外网站下载很多的依赖包，而国外网站下载速度很慢，所以，需要耗费很长时间。

2023-12-05 21:37:59 943

原创常用的 Linux 命令

【代码】【补充】常用的 Linux 命令。

2023-11-30 23:03:01 131 1

原创【实践】MapReduce作业+实验二

4、A.csv和B.csv为2个表，第一列为名字，第二列为年龄，用mapreduce编程实现，两个表的union, intersection, differece运算并输出。其中Survived列的0表示死亡，1表示幸存。3、score文件中保存有随机生成若干学生的成绩，包括语文、数学、英语，请实现将数据按照总分降序排列，如果总分相同按语文升序排列。b)数据去重 DateDistinct.java，最后显示以下效果，只显示不重复的日期(文档中格式有误)再用，生成数据，保存为Date.txt。

2023-11-30 18:02:04 580 1

原创 MapReduce编程实践(Hadoop3.2.2）

MapReduce是谷歌公司的核心计算模型，Hadoop开源实现了MapReduce。MapReduce将复杂的、运行于大规模集群上的并行计算过程高度抽象到了两个函数：Map和Reduce，并极大地方便了分布式编程工作，编程人员在不会分布式并行编程的情况下，也可以很容易将自己的程序运行在分布式系统上，完成海量数据的计算。本教程以一个词频统计任务为主线，详细介绍MapReduce基础编程方法。

2023-11-28 22:51:44 530

原创常见的Shell命令与HDFS进行交互

【代码】常见的Shell命令与HDFS进行交互。

2023-11-28 22:14:38 304

原创 Ubuntu系统安装并配置HBase2.2.2

JDK的安装目录是/usr/lib/jvm/jdk1.8.0_162，则JAVA _HOME =/usr/lib/jvm/jdk1.8.0_162；将hbase下的bin目录添加到path中，这样，启动hbase就无需到/usr/local/hbase目录下，大大的方便了hbase的使用。上述三条命令中，sudo bin/start-hbase.sh用于启动HBase，bin/hbase shell用于打开shell命令行模式，用户可以通过输入shell命令操作HBase数据库。（提取码：ziyu）。

2023-11-28 21:17:03 598

原创【实践】实验一：Hadoop基础入门

1.使用Java API在HDFS上创建一个自己中文名字的文件，然后往文件内写入自己的学号。

2023-11-28 21:02:57 134

原创【实践】JAVA API操作HDFS

1、在本地新建文本文件，文件名为“学号+姓名”，然后上传到hdfs中。在ubuntu中，完成以下2个编程任务(采用eclipse)2、遍历HDFS的文件夹。

2023-11-28 16:51:13 400

原创【问题】Ubuntu的网络连接图标消失，VMware

挂起虚拟机，编辑-->虚拟网络编辑器。先更改设置-->还原默认设置。就这左上角第一个图标消失了。重新打开虚拟机，回复。

2023-11-28 14:49:23 156

原创【问题】Eclipse【Hadoop项目】log4j:WARN No appenders could be found for logger 日志报错解决办法

一些小问题

2023-11-28 14:21:27 1767

原创在ubuntu中安装eclipse

链接🔗：https://dblab.xmu.edu.cn/blog/2460/Eclipse是常用的程序开发工具，本教程很多程序代码都是使用Eclipse开发调试，因此，需要在Linux系统中安装Eclipse。可以到Eclipse官网（Eclipse Downloads | The Eclipse Foundation）下载安装包。或者直接点击这里从百度云盘下载软件（提取码：lnwl），位于“软件”目录下，文件名是eclipse-4.7.0-linux.gtk.x86_64.tar.gz。假设安装

2023-11-28 14:10:10 3895

原创使用Docker搭建Hadoop分布式集群

在新主机上首次安装 Docker Engine-Community 之前，需要设置 Docker 仓库。要安装特定版本的 Docker Engine-Community，请在仓库中列出可用版本，然后选择一种安装。以下2条命令要注意安装的jdk版本，下图红色部分要根据所安装jdk版本进行修改，可以进入/usr/lib/jvm/目录下查看。Docker 的旧版本被称为 docker，docker.io 或 docker-engine。安装 Docker Engine-Community，以下介绍两种方式。

2023-11-28 08:23:03 218

原创安装hadoop 3.2.2，并分别配置成单机配置及伪分布式

的错误，那么，请到hadoop的安装目录修改配置文件“/usr/local/hadoop/etc/hadoop/hadoop-env.sh”，在里面找到“export JAVA_HOME=${JAVA_HOME}”这行，然后，把它修改成JAVA安装路径的具体地址，比如，“export JAVA_HOME=/usr/lib/jvm/default-java”，然后，再次启动Hadoop。:在Linux的终端中输入密码，终端是不会显示任何你当前输入的密码，也不会提示你已经输入了多少字符密码。

2023-11-27 23:42:22 620

原创 Vim常用模式

Vim的常用模式分为命令模式、插入模式、可视模式和正常模式。

2023-11-27 20:47:50 388

原创在Windows中使用VMware安装Ubuntu 22.04虚拟机

这时，可能在界面上无法看到“+”按钮，这是由于计算机的分辨率问题导致的，遇到这种情形时，可以按住键盘的“Alt”键，再把鼠标移动到安装界面上，点住鼠标左键不放，向上拖动界面，就可以看到其他被遮住的部分了。启动后会看到Ubuntu的安装欢迎界面（如下图所示），选择操作系统语言，推荐使用中文(简体)，然后，点击“安装Ubuntu”按钮。选择下图中“空闲”，然后再点击“+”按钮，用来创建交换空间。选择下图中“空闲”，然后再点击“+”按钮，用来创建根目录。点击“+”按钮后，会出现如下图的界面，我们进行如下设置。

2023-11-27 20:14:16 485

原创 Linux系统常用命令

Linux系统常用命令

2023-11-26 23:54:48 161 1

原创【操作系统】实验四动态分区存储管理方式的主存分配回收

最优适应算法是按作业要求挑选一个能满足作业要求的最小空闲区，这样保证可以不去分割一个大的区域，使装入大作业时比较容易得到满足，但是最优适应算法容易出现找到的一个分区可能只比作业所要求的长度略大一点的情况，这时，空闲区分割后剩下的空闲区就很小，这种很小的空闲区往往就无法使用，影响了主存的使用。最后，合并空闲区，修改空闲区表。如果找到的空闲区大于作业长度，则把空闲区的长度，且把空闲区分成两部分，一部分用来装入作业，另外一部分仍为空闲区，这时只要修改原空闲区的长度，且把新装入的作业登记到已分配去表中。

2023-05-17 20:55:20 2790 1

Wells_wei的博客