自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(122)
  • 资源 (7)
  • 收藏
  • 关注

原创 csdn头像修改问题

第一步:        下载手机APP :CSDN app第二步:        打开APP点开我的头像第三步:       进入修改页面,点击修改头像

2018-03-10 18:05:27 257

原创 Centos7.9离线安装Redis-5.0.4【2022年最新--保姆级部署教程-rpm安装包免费下载】

点击如下链接下载即可【Redis-5.0.4】Redis-5.04–免积分下载免费分享无需积分

2022-06-08 16:15:00 1102

原创 Centos7.9纯离线安装Nginx-1.18.0【2022年最新--保姆级部署教程-内附rpm安装包免费下载】

注意:如需Nginx-1.20.1版本去我的资源连接下载即可链接:nginx-1.18.0-1.el7.ngx.x86_64免费分享无需积分

2022-06-08 15:30:00 1623

原创 Centos7.5搭建本地Yum源【2022最新--保姆级部署】

CentOS-7-x86_64-Everything-1804.iso

2022-06-08 13:44:59 1805 1

原创 Centos7.9离线安装MySQL8.0.29【2022年最新--保姆级部署教程-rpm安装包免费下载】

Centos7.9mysql-8.0.29rpm离线安装附带本地镜像搭建

2022-06-08 10:26:28 1826 2

原创 Centos7离线安装JDK1.8【超详细】

Centos7离线安装JDK1.8带1.8安装包【超详细】

2022-05-29 17:02:21 2506

原创 《将博客搬至CSDN》

《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》《将博客搬至CSDN》...

2022-04-14 18:04:00 390

原创 大数据简介「 什么事大数据」

什么是大数据

2022-04-14 14:00:57 141

原创 Spark V3.0 概述及与Hadoop对比

2021-07-01 22:02:48 294 4

原创 Linux防火墙关闭方法

Linux防火墙关闭方法关闭防火墙:1、查看状态:systemctl status firewalld2、关闭: systemctl stop firewalld(只执行这个,重启后不行,还必须执行systemclt disable firewalld)1.1、查看selinux状态:getenforce2.2、关闭:编辑文件 /etc/selinux...

2021-07-01 21:40:38 30145 3

原创 HDFS入门

HDFS入门1.HDFS基本概念:HDFS是Hadoop Distribute File System 的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。2. HDFS重要特性A:是一个文件系统 用于存储文件的 提供统一命名空间的目录树结构 便于用户操作文件系统B:是一个分布式文...

2021-05-12 15:45:31 327

原创 Kafuka面试(整合Kafka两种模式区别)

整合Kafka两种模式说明★面试题:Receiver & Direct开发中我们经常会利用SparkStreaming实时地读取kafka中的数据然后进行处理,在spark1.3版本后,kafkaUtils里面提供了两种创建DStream的方法:1.Receiver接收方式:KafkaUtils.createDstream(开发中不用,了解即可,但是面试可能会问)Receiv...

2019-09-14 21:08:00 276

原创 secondary namenode 检查点

secondary namenodeNameNode职责是管理元数据信息,DataNode的职责是负责数据具体存储,那么SecondaryNameNode的作用是什么?对很多初学者来说是非常迷惑的。它为什么会出现在HDFS中。从它的名字上看,它给人的感觉就像是NameNode的备份。但它实际上却不是。大家猜想一下,当HDFS集群运行一段事件后,就会出现下面一些问题:ledit logs...

2019-09-14 21:07:00 173

原创 MapReduce总结

MapReduce思想: 核心: 分而治之,先分在和 应用场景: 复杂任务,没有依赖,以并行提供处理效率 脉络体现: 先map后reduce map:把复杂的任务拆分成任务,局部进行计算,得出局部结果 reduce:把map的局部结果进行全局汇总,得到最终结果...

2019-09-14 21:06:00 184

原创 Map、Reduce和Job方法总结

map方法:map的方法public void map(Object key, Text value, Context context) throws IOException, InterruptedException {…}key:偏移量,一般为0,用不到value:每行的值context:可以记录输入的key和value例如:context.write(new Text(...

2019-09-14 21:05:00 248

原创 Hadoop 两种环境下的checkpoint机制

伪分布式环境:HA环境checkpoint机制配置了HA的HDFS中,有active和standby namenode两个namenode节点。他们的内存中保存了一样的集群元数据信息,因为standby namenode已经将集群状态存储在内存中了,所以创建检查点checkpoint的过程只需要从内存中生成新的fsimage。详细过程如下: (standby namenode=SbN...

2019-09-14 21:04:00 154

原创 Reduce端join弊端&方法key探讨

2019-09-14 21:04:00 54

原创 MapReduce的Partitioner案例

项目简介这里给出一个经典的词频统计的案例:统计如下样本数据中每个单词出现的次数。SparkHBaseHiveFlinkStormHadoopHBaseSparkFlinkHBaseStormHBaseHadoopHiveFlinkHBaseFlinkHiveStormHiveFlinkHadoopHBaseHiveHadoopSparkHBaseStormHB...

2019-09-14 21:03:00 82

原创 MapReduce作业任务的管理

通过 web console 监控作业的运行:通过 yarn application 命令来进行作业管理列出帮助信息:yarn application --help查看运行的 MapReduce 程序:yarn application --list查看应用状态:yarn application -status <application_id>强制杀死应用:yarn a...

2019-09-14 21:02:00 564

原创 MapReduce的WordCount案例

项目简介这里给出一个经典的词频统计的案例:统计如下样本数据中每个单词出现的次数。SparkHBaseHiveFlinkStormHadoopHBaseSparkFlinkHBaseStormHBaseHadoopHiveFlinkHBaseFlinkHiveStormHiveFlinkHadoopHBaseHiveHadoopSparkHBaseStormHBaseH...

2019-09-14 21:02:00 64

原创 MapReduce使用Partitioner分区案例

Mapper:import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;i...

2019-09-14 21:01:00 58

原创 MapReduce案例WordCount

所需的 pom 依赖:<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7...

2019-09-14 21:00:00 53

原创 MapReduce排序案例

排序:注意排序按照 Key2(Mapper输出的key) 排序,key2 需要实现WritableComparable接口数据准备:7369,SMITH,CLERK,7902,1980/12/17,800,,207499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,307521,WARD,SALESMAN,7698,1981/2/22,1250,50...

2019-09-14 21:00:00 67

原创 MapReduce倒排索引

问题分析实现代码InversIndex类import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hado...

2019-09-14 20:59:00 60

原创 MapReduce自定义排序编程

排序和分组在map和reduce阶段进行排序时,比较的是k2。v2是不参与排序比较的。如果要想让v2也进行排序,需要把k2和v2组装成新的类,作为k2,才能参与比较。分组时也是按照k2进行比较的。案例说明数据:zhangsan@163.com600002014-02-20lisi@163.com200002014-02-20lisi@163.com01002014-...

2019-09-14 20:58:00 70

原创 GroupingComparator 自定义分组

图示说明:有如下订单数据:现在需要求出每一个订单中最贵的商品。需求分析实现(1)利用“订单id和成交金额”作为key,可以将map阶段读取到的所有订单数据按照id分区,按照金额排序,发送到reduce。(2)在reduce端利用groupingcomparator将订单id相同的kv聚合成组,然后取第一个即是最大值。代码实现:定义订单信息OrderBeanimp...

2019-09-14 20:57:00 59

原创 cdh 2.6.0版本和apache 2.7.x版本 本地执行环境的差异。

问题:在cdh中 reducetask个数不管设置几个 最终都是一个执行。原因:两个版本中 本地执行环境api发生了改变注意:两个版本的api在yarn集群模式都是一样的。localJobRunner:cdh:int numReduceTasks = this.job.getNumReduceTasks(); if (numReduceTasks...

2019-09-14 20:56:00 139

原创 CombineTextInputFormat小文件处理场景

存在的问题HDFS设计是用来存储海量数据的,特别适合存储TB、PB量级别的数据。但是随着时间的推移,HDFS上可能会存在大量的小文件,这里说的小文件指的是文件大小远远小于一个HDFS块(128MB)的大小;HDFS上存在大量的小文件至少会产生以下影响:消耗NameNode大量的内存延长MapReduce作业的总运行时间因为MapReduce框架默认的 TextInputFormat 切...

2019-09-14 20:56:00 211

原创 DistributedCache 分布式缓存

分布式缓存DistributedCache概念:所谓的分布式缓存指的是 hadoop框架可以把用户指定的小文件发送到各个maptask运行的机器上,进行缓存,便于maptask读取该文件内容 进行关联查询操作,这就是所谓的map端join。适用场合:通常适用于大文件关联小文件,把小文件进行分布式缓存。举例说明:订单数据 商品数据 把商品进...

2019-09-14 20:55:00 342

原创 MapReduce数据压缩机制

压缩目的: 降低数据磁盘存储空间,减少传输数据的IO量 压缩追求的指标: 压缩时间 越短越好 压缩化 越大越好 硬件需求如:CPU 算法支持 mr中可以使用压缩的地方: map的输出数据进行数据压缩,减少shuff给reduce的数据量 r...

2019-09-14 20:54:00 67

原创 MapReduce其他功能

如何获取mr当前文件名称://获取当前处理切片FileSplit fileSplit = (FileSplit)context.getInputSplit();//根据当前切片获取String fileName = fileSplit.getPath().getNmae();mr程序是否可以没有reduce阶段?答;如果可以,全局默认一个reduceTask ...

2019-09-14 20:54:00 43

原创 MapReduce优化参数

资源相关参数/*在MapReduce应用程序中配置就可以生效*/(1) mapreduce.map.memory.mb: 一个Map Task可使用的内存上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。(2) mapreduce.reduce.memory.mb: 一个Reduce Task可使用的资源上限(单位:MB)...

2019-09-14 20:53:00 264

原创 Reducetask并行度机制

reducetask并行度同样影响整个job的执行并发度和执行效率,与maptask的并发数由切片数决定不同,Reducetask数量的决定是可以直接手动设置:job.setNumReduceTasks(4);如果数据分布不均匀,就有可能在reduce阶段产生数据倾斜。注意: reducetask数量并不是任意设置,还要考虑业务逻辑需求,有些情况下,需要计算全局汇总结果,就只能有1个red...

2019-09-14 20:52:00 112

原创 MapReduce并行度机制

MapTask的并行度指的是map阶段有多少个并行的task共同处理任务。map阶段的任务处理并行度,势必影响到整个job的处理速度。那么,MapTask并行实例是否越多越好呢?其并行度又是如何决定呢?一个MapReducejob的map阶段并行度由客户端在提交job时决定,即客户端提交job之前会对待处理数据进行逻辑切片。切片完成会形成切片规划文件(job.split),每个逻辑切片最终对应...

2019-09-14 20:51:00 79

原创 Writable接口与序列化机制

序列化概念序列化(Serialization)是指把结构化对象转化为字节流。反序列化(Deserialization)是序列化的逆过程。即把字节流转回结构化对象。Java序列化(java.io.Serializable)Hadoop序列化的特点序列化格式特点:紧凑:高效使用存储空间。快速:读写数据的额外开销小可扩展:可透明地读取老格式的数据互操作:支持多语言的交互H...

2019-09-14 20:51:00 206

原创 Shuffle阶段数据的压缩机制

在shuffle阶段,大量的数据从map阶段输出,发送到reduce阶段,这一过程中,可能会涉及到大量的网络IO。输出数据较大时,使用hadoop提供的压缩机制对数据进行压缩,可以指定压缩的方式。减少网络传输带宽和存储的消耗;可以对map的输出进行压缩(map输出到reduce输入的过程,可以shuffle过程中网络传输的数据量)可以对reduce的输出结果进行压缩(最终保存到hdfs上...

2019-09-14 20:50:00 147

原创 MapReduce的Combiner组件

每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。combiner是MR程序中Mapper和Reducer之外的一种组件combiner组件的父类就是Reducercombiner和reducer的区别在于运行的位置:Combi...

2019-09-14 20:49:00 58

原创 MapReduce的Partitioner编程

1. 概述序列化(Serialization)是指把结构化对象转化为字节流。反序列化(Deserialization)是序列化的逆过程。把字节流转为结构化对象。当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流,反之当要将接收到或从磁盘读取的字节流转换为对象,就要进行反序列化。Java的序列化(Serializable)是一个重量级序列化框架,一个对象被序列化后,会附带很...

2019-09-14 20:48:00 151

原创 Mapreduce编程技巧

在MR中,牢牢记住key时什么,因为key许多默认属性排序===》key的字典序分区===》key的哈希值 % reduce task Num分组===》key相同为一组x1排序===》key的字典序2分区===》key的哈希值 % reduce task Num3分组===》key相同为一组...

2019-09-14 20:47:00 40

原创 MapReduce数据分区

一个:多个代码实现:Mapper:.mapreduce.Mapper.Context;public class EmployeeMapper extends Mapper<LongWritable, Text, LongWritable, Employee> { @Override protected void map(LongWritab...

2019-09-14 20:47:00 97

redis-5.0.4.tar

redis-5.0.4.tar Centos7亲测可用 免费分享,不要积分 不像部分博主骗积分,东西无法用 免费分享

2022-05-29

nginx-1.18.0-1.el7.ngx.x86_64

nginx-1.18.0-1.el7.ngx.x86_64 nginx离线安装包 免积分下载 centos亲测可用 免积分,不像博客中一部分人高积分下载下来没有用。

2022-05-29

mysql-8.0.29-1.el7.x86_64.rpm-bundle

mysql-8.0.29-1.el7.x86_64.rpm-bundle 免费分享,绝对惊喜 内附安装步骤 博客有骗积分的 甚至大积分下载后无法使用 免费分享8.0

2022-05-29

keepalived-2.2.4.tar

keepalived-2.2.4.tar离线安装包 免费分享,博客大多数都是要积分 甚至下载下来无法使用,骗积分 免费分享,拿去用

2022-05-29

JDK1.8安装包文件 jdk-8u231-linux-x64.tar.gz

Centos7离线安装文件 jdk-8u231-linux-x64.tar.gz压缩包 免费下载,现在博客都是付费文件,搞得头大,现在免费分享

2022-05-29

Spark V3.0 概述.pdf

Spark V3.0 概述

2021-07-01

Spark V3.0 概述.png

Spark V3.0 概述

2021-07-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除