- 博客(122)
- 资源 (7)
- 收藏
- 关注
原创 Centos7.9离线安装Redis-5.0.4【2022年最新--保姆级部署教程-rpm安装包免费下载】
点击如下链接下载即可【Redis-5.0.4】Redis-5.04–免积分下载免费分享无需积分
2022-06-08 16:15:00 1102
原创 Centos7.9纯离线安装Nginx-1.18.0【2022年最新--保姆级部署教程-内附rpm安装包免费下载】
注意:如需Nginx-1.20.1版本去我的资源连接下载即可链接:nginx-1.18.0-1.el7.ngx.x86_64免费分享无需积分
2022-06-08 15:30:00 1623
原创 Centos7.9离线安装MySQL8.0.29【2022年最新--保姆级部署教程-rpm安装包免费下载】
Centos7.9mysql-8.0.29rpm离线安装附带本地镜像搭建
2022-06-08 10:26:28 1826 2
原创 《将博客搬至CSDN》
《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》...
2022-04-14 18:04:00 390
原创 Linux防火墙关闭方法
Linux防火墙关闭方法关闭防火墙:1、查看状态:systemctl status firewalld2、关闭: systemctl stop firewalld(只执行这个,重启后不行,还必须执行systemclt disable firewalld)1.1、查看selinux状态:getenforce2.2、关闭:编辑文件 /etc/selinux...
2021-07-01 21:40:38 30145 3
原创 HDFS入门
HDFS入门1.HDFS基本概念:HDFS是Hadoop Distribute File System 的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。2. HDFS重要特性A:是一个文件系统 用于存储文件的 提供统一命名空间的目录树结构 便于用户操作文件系统B:是一个分布式文...
2021-05-12 15:45:31 327
原创 Kafuka面试(整合Kafka两种模式区别)
整合Kafka两种模式说明★面试题:Receiver & Direct开发中我们经常会利用SparkStreaming实时地读取kafka中的数据然后进行处理,在spark1.3版本后,kafkaUtils里面提供了两种创建DStream的方法:1.Receiver接收方式:KafkaUtils.createDstream(开发中不用,了解即可,但是面试可能会问)Receiv...
2019-09-14 21:08:00 276
原创 secondary namenode 检查点
secondary namenodeNameNode职责是管理元数据信息,DataNode的职责是负责数据具体存储,那么SecondaryNameNode的作用是什么?对很多初学者来说是非常迷惑的。它为什么会出现在HDFS中。从它的名字上看,它给人的感觉就像是NameNode的备份。但它实际上却不是。大家猜想一下,当HDFS集群运行一段事件后,就会出现下面一些问题:ledit logs...
2019-09-14 21:07:00 173
原创 MapReduce总结
MapReduce思想: 核心: 分而治之,先分在和 应用场景: 复杂任务,没有依赖,以并行提供处理效率 脉络体现: 先map后reduce map:把复杂的任务拆分成任务,局部进行计算,得出局部结果 reduce:把map的局部结果进行全局汇总,得到最终结果...
2019-09-14 21:06:00 184
原创 Map、Reduce和Job方法总结
map方法:map的方法public void map(Object key, Text value, Context context) throws IOException, InterruptedException {…}key:偏移量,一般为0,用不到value:每行的值context:可以记录输入的key和value例如:context.write(new Text(...
2019-09-14 21:05:00 248
原创 Hadoop 两种环境下的checkpoint机制
伪分布式环境:HA环境checkpoint机制配置了HA的HDFS中,有active和standby namenode两个namenode节点。他们的内存中保存了一样的集群元数据信息,因为standby namenode已经将集群状态存储在内存中了,所以创建检查点checkpoint的过程只需要从内存中生成新的fsimage。详细过程如下: (standby namenode=SbN...
2019-09-14 21:04:00 154
原创 MapReduce的Partitioner案例
项目简介这里给出一个经典的词频统计的案例:统计如下样本数据中每个单词出现的次数。SparkHBaseHiveFlinkStormHadoopHBaseSparkFlinkHBaseStormHBaseHadoopHiveFlinkHBaseFlinkHiveStormHiveFlinkHadoopHBaseHiveHadoopSparkHBaseStormHB...
2019-09-14 21:03:00 82
原创 MapReduce作业任务的管理
通过 web console 监控作业的运行:通过 yarn application 命令来进行作业管理列出帮助信息:yarn application --help查看运行的 MapReduce 程序:yarn application --list查看应用状态:yarn application -status <application_id>强制杀死应用:yarn a...
2019-09-14 21:02:00 564
原创 MapReduce的WordCount案例
项目简介这里给出一个经典的词频统计的案例:统计如下样本数据中每个单词出现的次数。SparkHBaseHiveFlinkStormHadoopHBaseSparkFlinkHBaseStormHBaseHadoopHiveFlinkHBaseFlinkHiveStormHiveFlinkHadoopHBaseHiveHadoopSparkHBaseStormHBaseH...
2019-09-14 21:02:00 64
原创 MapReduce使用Partitioner分区案例
Mapper:import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;i...
2019-09-14 21:01:00 58
原创 MapReduce案例WordCount
所需的 pom 依赖:<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7...
2019-09-14 21:00:00 53
原创 MapReduce排序案例
排序:注意排序按照 Key2(Mapper输出的key) 排序,key2 需要实现WritableComparable接口数据准备:7369,SMITH,CLERK,7902,1980/12/17,800,,207499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,307521,WARD,SALESMAN,7698,1981/2/22,1250,50...
2019-09-14 21:00:00 67
原创 MapReduce倒排索引
问题分析实现代码InversIndex类import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hado...
2019-09-14 20:59:00 60
原创 MapReduce自定义排序编程
排序和分组在map和reduce阶段进行排序时,比较的是k2。v2是不参与排序比较的。如果要想让v2也进行排序,需要把k2和v2组装成新的类,作为k2,才能参与比较。分组时也是按照k2进行比较的。案例说明数据:zhangsan@163.com600002014-02-20lisi@163.com200002014-02-20lisi@163.com01002014-...
2019-09-14 20:58:00 70
原创 GroupingComparator 自定义分组
图示说明:有如下订单数据:现在需要求出每一个订单中最贵的商品。需求分析实现(1)利用“订单id和成交金额”作为key,可以将map阶段读取到的所有订单数据按照id分区,按照金额排序,发送到reduce。(2)在reduce端利用groupingcomparator将订单id相同的kv聚合成组,然后取第一个即是最大值。代码实现:定义订单信息OrderBeanimp...
2019-09-14 20:57:00 59
原创 cdh 2.6.0版本和apache 2.7.x版本 本地执行环境的差异。
问题:在cdh中 reducetask个数不管设置几个 最终都是一个执行。原因:两个版本中 本地执行环境api发生了改变注意:两个版本的api在yarn集群模式都是一样的。localJobRunner:cdh:int numReduceTasks = this.job.getNumReduceTasks(); if (numReduceTasks...
2019-09-14 20:56:00 139
原创 CombineTextInputFormat小文件处理场景
存在的问题HDFS设计是用来存储海量数据的,特别适合存储TB、PB量级别的数据。但是随着时间的推移,HDFS上可能会存在大量的小文件,这里说的小文件指的是文件大小远远小于一个HDFS块(128MB)的大小;HDFS上存在大量的小文件至少会产生以下影响:消耗NameNode大量的内存延长MapReduce作业的总运行时间因为MapReduce框架默认的 TextInputFormat 切...
2019-09-14 20:56:00 211
原创 DistributedCache 分布式缓存
分布式缓存DistributedCache概念:所谓的分布式缓存指的是 hadoop框架可以把用户指定的小文件发送到各个maptask运行的机器上,进行缓存,便于maptask读取该文件内容 进行关联查询操作,这就是所谓的map端join。适用场合:通常适用于大文件关联小文件,把小文件进行分布式缓存。举例说明:订单数据 商品数据 把商品进...
2019-09-14 20:55:00 342
原创 MapReduce数据压缩机制
压缩目的: 降低数据磁盘存储空间,减少传输数据的IO量 压缩追求的指标: 压缩时间 越短越好 压缩化 越大越好 硬件需求如:CPU 算法支持 mr中可以使用压缩的地方: map的输出数据进行数据压缩,减少shuff给reduce的数据量 r...
2019-09-14 20:54:00 67
原创 MapReduce其他功能
如何获取mr当前文件名称://获取当前处理切片FileSplit fileSplit = (FileSplit)context.getInputSplit();//根据当前切片获取String fileName = fileSplit.getPath().getNmae();mr程序是否可以没有reduce阶段?答;如果可以,全局默认一个reduceTask ...
2019-09-14 20:54:00 43
原创 MapReduce优化参数
资源相关参数/*在MapReduce应用程序中配置就可以生效*/(1) mapreduce.map.memory.mb: 一个Map Task可使用的内存上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。(2) mapreduce.reduce.memory.mb: 一个Reduce Task可使用的资源上限(单位:MB)...
2019-09-14 20:53:00 264
原创 Reducetask并行度机制
reducetask并行度同样影响整个job的执行并发度和执行效率,与maptask的并发数由切片数决定不同,Reducetask数量的决定是可以直接手动设置:job.setNumReduceTasks(4);如果数据分布不均匀,就有可能在reduce阶段产生数据倾斜。注意: reducetask数量并不是任意设置,还要考虑业务逻辑需求,有些情况下,需要计算全局汇总结果,就只能有1个red...
2019-09-14 20:52:00 112
原创 MapReduce并行度机制
MapTask的并行度指的是map阶段有多少个并行的task共同处理任务。map阶段的任务处理并行度,势必影响到整个job的处理速度。那么,MapTask并行实例是否越多越好呢?其并行度又是如何决定呢?一个MapReducejob的map阶段并行度由客户端在提交job时决定,即客户端提交job之前会对待处理数据进行逻辑切片。切片完成会形成切片规划文件(job.split),每个逻辑切片最终对应...
2019-09-14 20:51:00 79
原创 Writable接口与序列化机制
序列化概念序列化(Serialization)是指把结构化对象转化为字节流。反序列化(Deserialization)是序列化的逆过程。即把字节流转回结构化对象。Java序列化(java.io.Serializable)Hadoop序列化的特点序列化格式特点:紧凑:高效使用存储空间。快速:读写数据的额外开销小可扩展:可透明地读取老格式的数据互操作:支持多语言的交互H...
2019-09-14 20:51:00 206
原创 Shuffle阶段数据的压缩机制
在shuffle阶段,大量的数据从map阶段输出,发送到reduce阶段,这一过程中,可能会涉及到大量的网络IO。输出数据较大时,使用hadoop提供的压缩机制对数据进行压缩,可以指定压缩的方式。减少网络传输带宽和存储的消耗;可以对map的输出进行压缩(map输出到reduce输入的过程,可以shuffle过程中网络传输的数据量)可以对reduce的输出结果进行压缩(最终保存到hdfs上...
2019-09-14 20:50:00 147
原创 MapReduce的Combiner组件
每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。combiner是MR程序中Mapper和Reducer之外的一种组件combiner组件的父类就是Reducercombiner和reducer的区别在于运行的位置:Combi...
2019-09-14 20:49:00 58
原创 MapReduce的Partitioner编程
1. 概述序列化(Serialization)是指把结构化对象转化为字节流。反序列化(Deserialization)是序列化的逆过程。把字节流转为结构化对象。当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流,反之当要将接收到或从磁盘读取的字节流转换为对象,就要进行反序列化。Java的序列化(Serializable)是一个重量级序列化框架,一个对象被序列化后,会附带很...
2019-09-14 20:48:00 151
原创 Mapreduce编程技巧
在MR中,牢牢记住key时什么,因为key许多默认属性排序===》key的字典序分区===》key的哈希值 % reduce task Num分组===》key相同为一组x1排序===》key的字典序2分区===》key的哈希值 % reduce task Num3分组===》key相同为一组...
2019-09-14 20:47:00 40
原创 MapReduce数据分区
一个:多个代码实现:Mapper:.mapreduce.Mapper.Context;public class EmployeeMapper extends Mapper<LongWritable, Text, LongWritable, Employee> { @Override protected void map(LongWritab...
2019-09-14 20:47:00 97
nginx-1.18.0-1.el7.ngx.x86_64
2022-05-29
mysql-8.0.29-1.el7.x86_64.rpm-bundle
2022-05-29
JDK1.8安装包文件 jdk-8u231-linux-x64.tar.gz
2022-05-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人