hadoop
文章平均质量分 72
阳光里哭泣的狗
把自己当成普通人,稍微有点成就,就是上天的眷顾
展开
-
Hadoop实例学习(十五)YARNshell操作
目录YARN常用命令yarn application 查看任务列表yarn application 查看任务状态yarn application 强杀任务yarn logs 查看日志查询 Application 日志查询 Container 日志yarn applicationattempt 查看尝试运行的任务列出所有 Application 尝试的列表打印 ApplicationAttemp 状态yarn container 查看容器列出所有 Container打印 Container 状态yarn no原创 2021-08-24 10:28:04 · 613 阅读 · 0 评论 -
Hadoop实例学习(十四)ETL清洗
目录ETL案例编写ETLMapper类编写ETLDriver类ETL数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程清理的过程往往只需要运行 Mapper 程序,不需要运行 Reduce 程序。案例将含有空字段的行清洗编写ETLMapper类package ETL;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;i原创 2021-08-22 15:39:58 · 277 阅读 · 0 评论 -
Hadoop实例学习(十三) Join应用
目录Reduce Join解决的问题实例编写TableBean 类编写TableMapper类编写TableDriver类Reduce Joinmap端: 将不同表或者不同文件中的相同字段信息作为key,并将不同表或者文件中剩下的信息作为value最后输出给reduce;reduce端:将每个分组的中来源不同的文件分开,最后再进行合并;解决的问题将不同文件进行结果结合的结果实例编写TableBean 类package ReduceJoin;import org.apache.原创 2021-08-21 21:55:51 · 430 阅读 · 0 评论 -
Hadoop实例学习(十二)HDFS的常用shell操作
hdfs常用操作原创 2021-05-05 20:42:12 · 3412 阅读 · 0 评论 -
HBase学习(五) HBase高可用搭建
HBase高可用搭建在hbase下的conf文件夹中创建backup-masters[root@master1 conf]# vi backup-masters1.修改hbase的hbase-site.xml2.将Hadoop中core-site.xml拷贝到hbase的conf文件下3.修改hbase的regionservers添加节点信息将配置好的conf文件分发给另外两台节点重新启动hbase查看进程...原创 2021-04-20 14:28:18 · 3773 阅读 · 1 评论 -
HBase学习(四) HBase API操作
目录准备工作创建maven项目添加依赖API操作准备工作创建maven项目添加依赖在pom.xml文件中加入<dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>1.3.1</vers原创 2021-04-13 14:45:10 · 3966 阅读 · 4 评论 -
HBase学习(三) HBase的数据结构
目录RowKeyColumn FamilyCellTime Stamp命名空间RowKeyHBase 数据库中也有一个表示唯一的键,这个唯一的键是 RowKey。RowKey 组成:HBase 中 RowKey 由任意字符串组成,组成长度不超过 64KB ,在实际应用中长度一般为10-100bytes,一般用到70-100bytes就能满足需求,在HBASE内部,RowKey保存为字节数组。存储时,数据按照RowKey的字典序(byte order)排序存储。设计RowKey时,要充分排序存储这个特原创 2021-03-23 15:35:16 · 4244 阅读 · 2 评论 -
HBase学习(二) HBase的shell操作
目录Shell语法虚拟机操作表的基本操作Shell语法以下是较为常用的shell命令名称描述语法help ‘命令名’查看命令的使用描述help ‘命令名’status返回hbase集群的状态信息statustable_help查看如何操作表table_helpcreate创建表create ‘表名’, ‘列族名1’, ‘列族名2’…alter修改列族添加一个列族:alter ‘表名’, ‘列族名’ ; 删除列族:alter ‘表名’,原创 2021-03-16 16:35:56 · 3868 阅读 · 0 评论 -
HBase学习(一) HBase搭建
目录准备工作解压并配置HBase启动HBase可能出现的问题准备工作创建集群Hadoop集群搭建zookeeper搭建Hbase下载将下载好的hbase安装包上传至虚拟机中解压并配置HBase将HBase解压到指定的目录下,我的目录是在/usr/hadoop下(自己选择)[root@master1 pakage]# tar -xzvf hbase-2.4.1-bin.tar.gz -C /usr/hadoop/配置 hbase-env.sh文件[root@master1 hba原创 2021-03-09 17:09:45 · 3656 阅读 · 0 评论 -
Hadoop实例学习(十一)Hadooop HA搭建
目录下载java安装zookeeper创建Hadoop集群配置core.site.xml文件配置hdfs.site.xml文件配置yarn.site.xml文件配置mapred.site.xml文件下载javajava下载安装zookeeperHadoop实例学习(十一)ZooKeeper安装创建Hadoop集群Hadoop实例学习(一)Hadoop3.x集群搭建!!!HA搭建最主要的就是Hadoop的四个配置文件配置core.site.xml文件<property>原创 2020-12-21 16:46:43 · 4042 阅读 · 0 评论 -
Hadoop实例学习(十)GroupingComparator分组
目录什么是GroupingComparator分组分组的步骤解决的问题基本机制输入数据MapTaskReduceTask实例编写Bean类编写Mapper类编写SortGroupingComparator类编写Reducer类编写Driver类运行结果什么是GroupingComparator分组!!!对Reduce阶段的数据根据某一个或几个字段进行分组!!!分组的步骤自定义类继承WritableComparator重写compare()方法@Overridepublic int com原创 2020-11-07 00:09:51 · 3969 阅读 · 0 评论 -
Hadoop实例学习(九)Combiner合并
目录什么是Combiner二级目录三级目录什么是CombinerMapReduce中的Combiner就是为了避免map任务和reduce任务之间的数据传输而设置的,Hadoop允许用户针对map task的输出指定一个合并函数。即为了减少传输到Reduce中的数据量。它主要是为了削减Mapper的输出从而减少网络带宽和Reducer之上的负载。通俗来说就是在Map之后,如果Map阶段不进行合并的话,到达reduce端的数据将是下面这种类型的:<a,1><a,1><a,1原创 2020-11-04 22:37:21 · 3773 阅读 · 1 评论 -
Hadoop实例学习(八)全排序和区排序
目录排序排序的分类自定义排序数据预处理全排序与区排序全排序重写Bean类编写Mapper类编写Reduce类编写Driver类结果区排序重写Partition编写Driver类运行结果排序排序的分类部分排序:MapReduce根据输入记录的键对数据集排序保证输出的每个文件内部有序。全排序:最终输出结果只有一个文件,且文件内部有序。实现方式是只设置一个ReduceTask。但该方法在处理大型文件时效率极低,因为一台机器处理所有文件,完全丧失了MapReduce所提供的并行框架。区排序:在Reduc原创 2020-11-01 17:01:04 · 3840 阅读 · 0 评论 -
Hadoop实例学习(七)Shuffle机制与Partition分区
目录Shuffle机制Partition分区类别与规则默认分区自定义分区分区规则Partition分区实例Shuffle机制Partition分区类别与规则Partition分区:按照一定的分区规则,将key value的list进行分区。分区的创建分为默认的和自定义两种。默认分区默认分区是根据key的hashCode对ReduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区。public class HashPartitioner<K,V> exten原创 2020-10-31 14:12:32 · 4150 阅读 · 0 评论 -
Hadoop实例学习(六)Hadoop序列化
目录序列化相关概念什么是序列化与反序列化序列化的目的Hadoop序列化的特点定义序列化接口Bean三级目录序列化相关概念什么是序列化与反序列化序列化:就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。反序列化:就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。序列化的目的一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储“活的原创 2020-10-29 20:57:35 · 4287 阅读 · 0 评论 -
Hadoop实例学习(五)打jar包
目录添加pom.xml依赖开始打包上传至hadoop集群并运行改名并上传上传至Hadoop中测试jar包添加pom.xml依赖在之前写好的wordcount的maven项目下添加依赖 <!--打包所需的依赖--> <build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifa原创 2020-10-27 20:01:57 · 5073 阅读 · 0 评论 -
Hadoop实例学习(四)Mapreduce词频统计
目录创建maven项目pom.xml添加依赖添加log文件编写类编写Mapper类编写Reducer类编写Driver驱动!!!不能直接运行因为还没设置输入和输出路径!会遇见的问题常见错误产生原因及解决方法创建maven项目pom.xml添加依赖<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <ar原创 2020-10-22 21:48:03 · 4123 阅读 · 0 评论 -
Hadoop实例学习(三)JAVA_API的基本操作
目录文件上传文件下载文件夹删除文件改名文件上传代码package hdfsdemo;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.junit.Test;import java.io.IOException;import java.net.URI;import java.net.UR原创 2020-10-23 17:26:35 · 3885 阅读 · 0 评论 -
Hadoop实例学习(二)JAVA_API前的配置
目录在window中的操作二级目在idea中创建maven项目三级目录测试在window中的操作二级目在idea中创建maven项目三级目录测试原创 2020-10-15 21:18:13 · 3624 阅读 · 0 评论 -
Hadoop实例学习(一)Hadoop3.x集群搭建
jdk下载原创 2020-09-25 18:44:38 · 4208 阅读 · 0 评论 -
HADOOP_MAPRED_HOME=${full path of your hadoop distribution directory}
运行自带jar包报错解决办法输入hadoop classpath找到路径 将刚刚找到的hadoop classpath路径复制黏贴到mapred-site.xml中<property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=黏贴hadoop classpath</value></property><property>原创 2020-10-07 14:09:52 · 7401 阅读 · 1 评论 -
Hadoop集群start-dfs.sh错误解决方式
解决方式在你解压的hadoop文件中的sbin文件中vi进去并编辑start-dfs.sh与stop-dfs.shHDFS_DATANODE_USER=rootHADOOP_SECURE_DN_USER=hdfsHDFS_NAMENODE_USER=rootHDFS_SECONDARYNAMENODE_USER=rootvi进去并编辑start-yarn.sh与stop-yarn.shYARN_RESOURCEMANAGER_USER=rootHADOOP_SECURE_DN_USER原创 2020-09-18 17:44:19 · 19966 阅读 · 0 评论