Hadoop
Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
Yannick Li
这个作者很懒,什么都没留下…
展开
-
使用scala语言编写Spark独立应用程序实现词频统计
实验内容:下载一篇英文短文,编写spark独立应用程序,完成词频统计。代码:WordCount.scalaimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfobject WordCount{ def main(args:Array[String]){ val logFile = "file:///home/hadoop原创 2022-01-08 10:15:02 · 1062 阅读 · 0 评论 -
使用scala语言编写Spark独立应用程序计算学生成绩平均值
实验内容:每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;编写spark独立应用程序求出所有学生的平均成绩。下面是输入文件和输出文件的一个样例:Algorithm成绩:小明 92小红 87小新 82小丽 90Database成绩:小明 95小红 81小新 89小丽 85Python成绩:小明 82小红 83小新 94小丽 91平均成绩如下:(小红,83.67)(小新,88.33)(小明,89.67)(小丽,88原创 2022-01-08 10:11:51 · 6671 阅读 · 0 评论 -
使用scala语言编写Spark独立应用程序合并两个文件
实验内容:对于两个输入文件A和B,编写Spark独立程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。下面是输入文件和输出文件的样例:输入文件A的样例如下:20170101 x20170102 y20170103 x20170104 y20170105 z20170106 z输入文件B的样例如下:20170101 y20170102 y20170103 x20170104 z20170105 y根原创 2022-01-08 10:04:08 · 2877 阅读 · 0 评论 -
使用scala语言编写Spark独立应用程序统计文件行数
实现内容:使用scala语言编写独立应用程序,读取HDFS系统文件“/user/hadoop/test.txt”,统计文件行数;通过使用sbt工具将整个应用程序打包成jar包,并将jar包通过spark-submit提交到spark中运行。代码:SimpleApp.scalaimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfobj原创 2022-01-08 09:49:56 · 2670 阅读 · 0 评论 -
Spark安装
实验环境:(1)操作系统:Linux;(2)Hadoop版本:3.3.0;(3)Spark版本:3.1.2实验内容:根据自己安装的Hadoop模式,选择对应的Spark配置模式。本文中我们安装Spark的伪分布式1.Spark配置文件清单下载Spark包之后解压。配置环境变量:老规矩,依旧需要source /etc/profile配置文件:1> spark-env.sh2>workers写入自己的ip地址启动spark集群网页显示一波在网址栏输入原创 2022-01-08 09:44:36 · 450 阅读 · 0 评论 -
使用HIVEQL程序完成词频统计
实验环境:(1)操作系统:Linux;(2)Hadoop版本:3.3.0;(3)JDK版本:1.8;(4)Hive版本:3.1.2在网上找一篇英文短文,进行后序操作!实验内容:步骤:1.在test数据库中创建表docs并导入数据2.词频统计查看结果:(部分截图)...原创 2022-01-08 09:31:43 · 877 阅读 · 0 评论 -
常用的Hive操作
实验环境:(1)操作系统:Linux;(2)Hadoop版本:3.3.0;(3)JDK版本:1.8;(4)Hive版本:3.1.2实验内容:(一)安装Hive环境:1.完成Hive安装,根据实验1所安装的Hadoop模式,选择Hive的配置模式;Hive安装:配置profile,并使之生效:然后source /etc/profile2.Hive的配置文件1》 进入hive的conf目录,把hive-default.xml.template复制出一个副本,重命名为hive-sit原创 2022-01-08 09:27:52 · 699 阅读 · 0 评论 -
HDFS的java API编程
实验环境:centos(桌面版)+Intellij IDEA 2021.2最开始为最小安装,只需要改为桌面安装即可!实验内容:(1) 从本地向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在则覆盖,由用户来指定是复制操作还是剪切操作;提示:FileSystem类提供exists函数判断文件是否存在;提供copyFromLocalFile函数复制文件,该函数可以接受四个参数,第一个参数表示是否删除源文件,第二个参数表示是否覆盖,后两个参数为源路径和hdfs路径本地文件为:text.t原创 2022-01-07 16:28:05 · 1247 阅读 · 0 评论 -
基于MapReduce的文件合并
实验环境:centos7(桌面版)+Intellij IDEA 2021.2实验内容:对于两个输入文件,即文件A和文件B,请编写MapReduce程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。下面是输入文件和输出文件的一个样例供参考。要求在代码中给出注释说明,并给出程序运行结果截图。输入文件A的样例如下:20170101 x20170102 y20170103 x20170104 y20170105 z20170106原创 2022-01-07 16:43:30 · 2192 阅读 · 0 评论 -
基于MapReduce的词频统计
实验环境:centos7(桌面版)+Intellij IDEA 2021.2实验内容:自行在网上搜索一篇英文短文,编写MapReduce程序,完成词频统计。代码:1》 WordCount.class:package MapReduce_1;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import原创 2022-01-07 16:35:52 · 1399 阅读 · 0 评论 -
熟悉常用的HDFS操作
实验环境:Centos7(1)查看hadoop版本号(2)查看hadoop集群磁盘使用情况(3)向HDFS系统目录”/src”上传任意内容的文本文件(4)查看该文本文件,并输出到终端中(5)将查看结果重定向到本地文件(6)将HDFS系统/src目录下的文本文件复制到HDFS系统/src2目录下(7)查看/src目录和/src2目录下所有文件大小(8)从HDFS系统/src目录和/src2目录中下载所有文件到本地/home/hadoop目录Src和src2中文件相同,故而会原创 2022-01-07 16:03:52 · 1237 阅读 · 0 评论 -
Hadoop集群环境搭建和熟悉常用的Linux操作
实验环境:Centos7Hadoop-3.3.00.安装Linux操作系统(虚拟机)主机名:yannick_Master0011.熟悉常用的Linux操作1)cd命令:切换目录(1)切换到目录“/usr/local”(2)切换到当前目录的上一级目录(3)切换到当前登录Linux系统的用户的自己的主文件夹2)ls命令:查看文件与目录查看目录“/usr”下的所有文件和目录3)mkdir命令:新建目录(1)进入“/tmp”目录,创建一个名为“a”的目录,并查看“/tmp”目录下已经原创 2022-01-07 15:44:42 · 1280 阅读 · 0 评论