老猫饿了-CSDN博客

Linux防火墙关闭方法关闭防火墙：1、查看状态：systemctl status firewalld2、关闭： systemctl stop firewalld（只执行这个，重启后不行，还必须执行systemclt disable firewalld）1.1、查看selinux状态：getenforce2.2、关闭：编辑文件 /etc/selinux...

2021-07-01 21:40:38 30145 3

原创 HDFS入门

HDFS入门1.HDFS基本概念：HDFS是Hadoop Distribute File System 的简称，意为：Hadoop分布式文件系统。是Hadoop核心组件之一，作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。2． HDFS重要特性A:是一个文件系统用于存储文件的提供统一命名空间的目录树结构便于用户操作文件系统B:是一个分布式文...

2021-05-12 15:45:31 327

原创 Kafuka面试（整合Kafka两种模式区别）

整合Kafka两种模式说明★面试题：Receiver & Direct开发中我们经常会利用SparkStreaming实时地读取kafka中的数据然后进行处理，在spark1.3版本后，kafkaUtils里面提供了两种创建DStream的方法:1.Receiver接收方式：KafkaUtils.createDstream(开发中不用，了解即可，但是面试可能会问)Receiv...

2019-09-14 21:08:00 276

原创 secondary namenode 检查点

secondary namenodeNameNode职责是管理元数据信息，DataNode的职责是负责数据具体存储，那么SecondaryNameNode的作用是什么？对很多初学者来说是非常迷惑的。它为什么会出现在HDFS中。从它的名字上看，它给人的感觉就像是NameNode的备份。但它实际上却不是。大家猜想一下，当HDFS集群运行一段事件后，就会出现下面一些问题：ledit logs...

2019-09-14 21:07:00 173

原创 MapReduce总结

MapReduce思想：核心：分而治之，先分在和应用场景：复杂任务，没有依赖，以并行提供处理效率脉络体现：先map后reduce map：把复杂的任务拆分成任务，局部进行计算，得出局部结果 reduce：把map的局部结果进行全局汇总，得到最终结果...

2019-09-14 21:06:00 184

原创 Map、Reduce和Job方法总结

map方法：map的方法public void map(Object key, Text value, Context context) throws IOException, InterruptedException {…}key:偏移量，一般为0，用不到value：每行的值context：可以记录输入的key和value例如：context.write(new Text(...

2019-09-14 21:05:00 248

原创 Hadoop 两种环境下的checkpoint机制

伪分布式环境：HA环境checkpoint机制配置了HA的HDFS中，有active和standby namenode两个namenode节点。他们的内存中保存了一样的集群元数据信息，因为standby namenode已经将集群状态存储在内存中了，所以创建检查点checkpoint的过程只需要从内存中生成新的fsimage。详细过程如下： (standby namenode=SbN...

2019-09-14 21:04:00 154

原创 MapReduce的Partitioner案例

项目简介这里给出一个经典的词频统计的案例：统计如下样本数据中每个单词出现的次数。SparkHBaseHiveFlinkStormHadoopHBaseSparkFlinkHBaseStormHBaseHadoopHiveFlinkHBaseFlinkHiveStormHiveFlinkHadoopHBaseHiveHadoopSparkHBaseStormHB...

2019-09-14 21:03:00 82

原创 MapReduce作业任务的管理

通过 web console 监控作业的运行：通过 yarn application 命令来进行作业管理列出帮助信息：yarn application --help查看运行的 MapReduce 程序：yarn application --list查看应用状态：yarn application -status <application_id>强制杀死应用：yarn a...

2019-09-14 21:02:00 564

原创 MapReduce使用Partitioner分区案例

Mapper：import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;i...

2019-09-14 21:01:00 58

原创 MapReduce案例WordCount

所需的 pom 依赖：<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7...

2019-09-14 21:00:00 53

原创 MapReduce排序案例

排序：注意排序按照 Key2(Mapper输出的key) 排序，key2 需要实现WritableComparable接口数据准备：7369,SMITH,CLERK,7902,1980/12/17,800,,207499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,307521,WARD,SALESMAN,7698,1981/2/22,1250,50...

2019-09-14 21:00:00 67

原创 MapReduce倒排索引

问题分析实现代码InversIndex类import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hado...

2019-09-14 20:59:00 60

原创 MapReduce自定义排序编程

排序和分组在map和reduce阶段进行排序时，比较的是k2。v2是不参与排序比较的。如果要想让v2也进行排序，需要把k2和v2组装成新的类，作为k2，才能参与比较。分组时也是按照k2进行比较的。案例说明数据：zhangsan@163.com600002014-02-20lisi@163.com200002014-02-20lisi@163.com01002014-...

2019-09-14 20:58:00 70

原创 GroupingComparator 自定义分组

图示说明：有如下订单数据：现在需要求出每一个订单中最贵的商品。需求分析实现(1)利用“订单id和成交金额”作为key，可以将map阶段读取到的所有订单数据按照id分区，按照金额排序，发送到reduce。(2)在reduce端利用groupingcomparator将订单id相同的kv聚合成组，然后取第一个即是最大值。代码实现：定义订单信息OrderBeanimp...

2019-09-14 20:57:00 59

原创 cdh 2.6.0版本和apache 2.7.x版本本地执行环境的差异。

问题：在cdh中 reducetask个数不管设置几个最终都是一个执行。原因：两个版本中本地执行环境api发生了改变注意：两个版本的api在yarn集群模式都是一样的。localJobRunner:cdh:int numReduceTasks = this.job.getNumReduceTasks(); if (numReduceTasks...

2019-09-14 20:56:00 139

原创 CombineTextInputFormat小文件处理场景

存在的问题HDFS设计是用来存储海量数据的，特别适合存储TB、PB量级别的数据。但是随着时间的推移，HDFS上可能会存在大量的小文件，这里说的小文件指的是文件大小远远小于一个HDFS块(128MB)的大小；HDFS上存在大量的小文件至少会产生以下影响：消耗NameNode大量的内存延长MapReduce作业的总运行时间因为MapReduce框架默认的 TextInputFormat 切...

2019-09-14 20:56:00 211

原创 DistributedCache 分布式缓存

分布式缓存DistributedCache概念：所谓的分布式缓存指的是 hadoop框架可以把用户指定的小文件发送到各个maptask运行的机器上，进行缓存，便于maptask读取该文件内容进行关联查询操作，这就是所谓的map端join。适用场合：通常适用于大文件关联小文件，把小文件进行分布式缓存。举例说明：订单数据商品数据把商品进...

2019-09-14 20:55:00 342

原创 MapReduce数据压缩机制

压缩目的：降低数据磁盘存储空间，减少传输数据的IO量压缩追求的指标：压缩时间越短越好压缩化越大越好硬件需求如：CPU 算法支持 mr中可以使用压缩的地方： map的输出数据进行数据压缩，减少shuff给reduce的数据量 r...

2019-09-14 20:54:00 67

原创 MapReduce其他功能

如何获取mr当前文件名称：//获取当前处理切片FileSplit fileSplit = (FileSplit)context.getInputSplit();//根据当前切片获取String fileName = fileSplit.getPath().getNmae();mr程序是否可以没有reduce阶段？答;如果可以，全局默认一个reduceTask ...

2019-09-14 20:54:00 43

原创 MapReduce优化参数

资源相关参数/*在MapReduce应用程序中配置就可以生效*/(1) mapreduce.map.memory.mb: 一个Map Task可使用的内存上限(单位:MB)，默认为1024。如果Map Task实际使用的资源量超过该值，则会被强制杀死。(2) mapreduce.reduce.memory.mb: 一个Reduce Task可使用的资源上限(单位:MB)...

2019-09-14 20:53:00 264

原创 Reducetask并行度机制

reducetask并行度同样影响整个job的执行并发度和执行效率，与maptask的并发数由切片数决定不同，Reducetask数量的决定是可以直接手动设置：job.setNumReduceTasks(4);如果数据分布不均匀，就有可能在reduce阶段产生数据倾斜。注意： reducetask数量并不是任意设置，还要考虑业务逻辑需求，有些情况下，需要计算全局汇总结果，就只能有1个red...

2019-09-14 20:52:00 112

MapTask的并行度指的是map阶段有多少个并行的task共同处理任务。map阶段的任务处理并行度，势必影响到整个job的处理速度。那么，MapTask并行实例是否越多越好呢？其并行度又是如何决定呢？一个MapReducejob的map阶段并行度由客户端在提交job时决定，即客户端提交job之前会对待处理数据进行逻辑切片。切片完成会形成切片规划文件(job.split)，每个逻辑切片最终对应...

2019-09-14 20:51:00 79

原创 Writable接口与序列化机制

序列化概念序列化(Serialization)是指把结构化对象转化为字节流。反序列化(Deserialization)是序列化的逆过程。即把字节流转回结构化对象。Java序列化(java.io.Serializable)Hadoop序列化的特点序列化格式特点：紧凑：高效使用存储空间。快速：读写数据的额外开销小可扩展：可透明地读取老格式的数据互操作：支持多语言的交互H...

2019-09-14 20:51:00 206

原创 Shuffle阶段数据的压缩机制

在shuffle阶段，大量的数据从map阶段输出，发送到reduce阶段，这一过程中，可能会涉及到大量的网络IO。输出数据较大时，使用hadoop提供的压缩机制对数据进行压缩，可以指定压缩的方式。减少网络传输带宽和存储的消耗；可以对map的输出进行压缩(map输出到reduce输入的过程，可以shuffle过程中网络传输的数据量)可以对reduce的输出结果进行压缩(最终保存到hdfs上...

2019-09-14 20:50:00 147

原创 MapReduce的Combiner组件

每一个map都可能会产生大量的本地输出，Combiner的作用就是对map端的输出先做一次合并，以减少在map和reduce节点之间的数据传输量，以提高网络IO性能，是MapReduce的一种优化手段之一。combiner是MR程序中Mapper和Reducer之外的一种组件combiner组件的父类就是Reducercombiner和reducer的区别在于运行的位置：Combi...

2019-09-14 20:49:00 58

原创 MapReduce的Partitioner编程

1．概述序列化(Serialization)是指把结构化对象转化为字节流。反序列化(Deserialization)是序列化的逆过程。把字节流转为结构化对象。当要在进程间传递对象或持久化对象的时候，就需要序列化对象成字节流，反之当要将接收到或从磁盘读取的字节流转换为对象，就要进行反序列化。Java的序列化(Serializable)是一个重量级序列化框架，一个对象被序列化后，会附带很...

2019-09-14 20:48:00 151

原创 Mapreduce编程技巧

在MR中，牢牢记住key时什么，因为key许多默认属性排序===》key的字典序分区===》key的哈希值 % reduce task Num分组===》key相同为一组x1排序===》key的字典序2分区===》key的哈希值 % reduce task Num3分组===》key相同为一组...

2019-09-14 20:47:00 40

原创 MapReduce数据分区

一个：多个代码实现：Mapper：.mapreduce.Mapper.Context;public class EmployeeMapper extends Mapper<LongWritable, Text, LongWritable, Employee> { @Override protected void map(LongWritab...

2019-09-14 20:47:00 97