自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 收藏
  • 关注

原创 大数据开发资料大集合

https://blog.csdn.net/qq_43701760/article/details/89853420

2019-11-06 14:40:56 201

转载 Spark面试题

https://blog.csdn.net/Lwj879525930/article/details/82559596

2019-07-29 08:58:44 172

转载 hadoop面试100道收集(带答案)

https://blog.csdn.net/kingmax54212008/article/details/51257067

2019-07-24 10:26:26 463

转载 hive之经典sql面试题

https://blog.csdn.net/qq_41568597/article/details/84309503

2019-07-17 11:20:14 2203 1

转载 Hbase中的filter使用

https://blog.csdn.net/lr131425/article/details/72676254

2019-07-11 10:28:59 370

转载 Kylin介绍(目前仅支持Hbase)

https://www.cnblogs.com/honey01/p/8351145.html

2019-07-11 10:27:21 3793

转载 大数据工程师(运维)面试系列

转载:https://blog.csdn.net/BlackEnn/article/details/53189854

2019-06-21 10:00:09 1563

原创 解决java.lang.SecurityException: Invalid signature file digest for Manifest main attributes(运行jar包时出现)

转载好文章:https://www.jianshu.com/p/cd1f1b33a41a

2019-06-13 15:14:04 607

转载 hive MapReduce详解

转载:https://blog.csdn.net/fanfan_gaolin/article/details/88576426

2019-06-12 15:37:45 1037

原创 sqoop集群的搭建

这篇博客理由sqoop版本的下载地址:https://www.jianshu.com/p/a088713ba26bsqoop集群的搭建转载:https://blog.csdn.net/qq_33247435/article/details/84316691转载第二篇:https://www.jianshu.com/p/a088713ba26bsqoop 连接mysql的各种错误...

2019-06-11 15:17:45 610

原创 Spark-2.2.0安装和部署(分布式集群搭建,亲测可用)

转载好文章(安装spark集群的前提一定要安装scala):https://blog.csdn.net/weixin_36394852/article/details/76030317注意:此命令只复制文件夹 目录下的内容,不直接将目录及内容复制到其他主机rsync -av /usr/scala-2.11.7/ SparkWorker2:/usr/scala-2.11.7/scp命令...

2019-06-06 17:06:04 328

转载 hive基础知识及性能优化(面试必备)

转载一:https://blog.csdn.net/u011331430/article/details/79038103转载二:https://blog.csdn.net/yu0_zhang0/article/details/81776459转载三:https://www.cnblogs.com/smartloli/p/4356660.html...

2019-06-05 13:54:57 433

转载 Hive的常用三种文件存储格式详解

转载:https://blog.csdn.net/qq_26442553/article/details/79313898三者的存储格式的压缩对比和查询速度对比):https://blog.csdn.net/qq_31807385/article/details/84796880

2019-06-05 08:58:29 923

转载 大数据处理基本过程

转载:https://blog.csdn.net/qq_39438729/article/details/80211531

2019-06-05 08:53:40 326

转载 Hive压缩说明

转载:https://www.2cto.com/kf/201611/566909.html

2019-06-05 08:47:26 132

转载 大数据框架项目选型(Hadoop,Spark等5种)

转载链接:https://blog.csdn.net/yimingsilence/article/details/55517426

2019-06-03 08:55:05 361

转载 Spark学习一:初识spark(系统学习)

https://blog.csdn.net/wangzq2213/article/details/81034480

2019-05-31 09:20:47 442

转载 Scala基础语法大全总结(一)

转载:https://blog.csdn.net/qq_37142346/article/details/80977744

2019-05-30 18:08:51 194

转载 什么是sqoop

转载:https://www.cnblogs.com/xing901022/p/5920891.htmlsqoop的使用说明:https://help.aliyun.com/document_detail/28133.html

2019-05-30 17:11:18 182

转载 Spark 学习: spark 原理简述与 shuffle 过程介绍

转载:https://blog.csdn.net/databatman/article/details/53023818

2019-05-28 16:23:19 315

原创 简单搞定Shuffle机制运行原理(shuffle流程, Combiner合并)

转载:https://blog.csdn.net/github_36444580/article/details/752089922.4.1概述1)mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;2)shuffle:洗牌、发牌(核心机制:数据分区、排序、缓存);3)具体来说:就是将ma...

2019-05-28 16:20:44 887

转载 hive HQL查询语句的使用

https://blog.csdn.net/m0_37324825/article/details/80485002

2019-05-28 10:21:25 300

转载 Hive入门及常用指令

转载:https://www.cnblogs.com/gcczhongduan/p/5315099.htmlhttps://blog.csdn.net/ddydavie/article/details/80667727

2019-05-28 09:46:05 130

原创 Mr 结合yarn的运行流程(运行逻辑)

1、为什么要使用YARN?为了提升集群的利用率、资源统一管理, 使用YARN为上层应用提供统一的资源管理和调度的平台。2、YARN的优势? 资源的统一管理和调度:集群中所有节点的资源(内存、CPU、磁盘、网络等)抽象为Container。计算框架需要资源进行运算任务时需要向YARN申请Container, YARN按照特定的策略对资源进行调度进行Container的...

2019-05-28 09:23:28 746

原创 Hdfs启动过程及文件读写流程(精简专业版本)

一.Hdfs启动过程:HDFS的启动过程分为四个阶段:第一阶段:NameNode 读取包含元数据信息的fsimage文件,并加载到内存;第二阶段:NameNode读取体现HDFS最新状态的edits日志文件,并加载到内存中第三阶段:生成检查点,SecondaryNameNode将edits日志中的信息合并到fsimage文件中第四阶段:进入安全模式,检查数据块的完整性...

2019-05-28 09:17:50 743

转载 最近经历的一些大数据(Spark/Hadoop)面试题

转载:https://blog.csdn.net/lxhandlbb/article/details/54599512

2019-05-27 10:56:15 119

转载 hive 的分区和分桶

转载:https://yq.aliyun.com/articles/513814#Hive中分区表及陷阱https://blog.csdn.net/qq_35180983/article/details/82902943

2019-05-27 10:54:22 130

转载 大数据Hive 面试以及知识点

转载:https://blog.csdn.net/haohaixingyun/article/details/52819588

2019-05-27 10:36:12 488

原创 oozie4.3.0的安装与配置(hadoop2.7.1分布式集群环境)

一.oozie4.3.0的的编译需要依赖mavenhttps://www.jianshu.com/p/30aa16a813a7linux中执行java或者mvn命令提示没有权限解决办法:$ chmod a+x /var/jenkins_home/jdk1.8.0_191/bin/java$ chmod a+x /var/jenkins_home/apache-maven-3.3....

2019-05-23 11:06:17 286

原创 Linux中虚拟机 网络不可用解决方案

注意ip之间的对应关系第一步:第二步:第三步:

2019-05-22 19:33:00 6275

原创 HDFS读写流程(史上最精炼详细)

转载(精简):https://blog.csdn.net/whdxjbw/article/details/81072207转载:https://blog.csdn.net/qq_30552441/article/details/81356132写详细步骤:客户端向NameNode发出写文件请求。检查是否已存在文件、检查权限。若通过检查,直接先将操作写入EditLog,并返回输出流...

2019-05-21 16:19:18 115

原创 hadoop2.71 分布式高可用(HA机制下的,并且使用自己安装的zookeeper的集群)集群 Hbase1.2.6安装

转载:https://blog.csdn.net/qq_34758475/article/details/84337320(亲测有效)hbase集群规划解压hbase将hbase-1.2.8-bin.tar.gz解压到/opt/modules/soft目录下:1.配置hbase-env.sh文件:[root@master conf]# vi hbase...

2019-05-17 16:08:23 236

转载 Hive简介

转载:https://www.cnblogs.com/qingyunzong/p/8707885.html#_label0

2019-05-17 09:48:54 124

转载 hadoop2.7 集群分布式环境 Hbase的安装

转载:https://blog.csdn.net/u014454538/article/details/83625554

2019-05-13 16:47:40 120

原创 Hadoop的各个web界面的地址

1、HDFS界面:http://potter2:50070查看NameNode状态;该端口的定义位于core-default.xml中,可以在hdfs-site.xml中修改;如果通过该端口看着这个页面,以为着NameNode节点是存活的。1、HDFS页面:500702、YARN的管理界面:80883、HistoryServer的管理界面:198884、Zookee...

2019-05-13 10:30:54 548

转载 通俗理解YARN运行原理

转载:http://www.imooc.com/article/257942

2019-05-13 09:51:52 225

转载 hadoop自带的writable类型

Hadoop 中,并没有使用Java自带的基本类型类(Integer、Float等),而是使用自己开发的类。Hadoop 自带有很多序列化类型,大致分为以下两种:实现了WritableComparable接口的类  基础:BooleanWritable | ByteWritable  数字:IntWritable | VIntWritable | FloatWritable | Long...

2019-05-10 16:49:25 1252

原创 Hadoop中Combiner和Partitioner应用场景

Combiner和Partitioner是用来优化MapReduce的。可以提高MapReduce的运行效率。Combiner集群上的可用带宽限制了MapReduce作业的数量,因此尽量避免map和reduce任务之间的数据传输是有利的。Hadoop允许用户针对map任务的输出指定一个combiner(就像mapper,reducer)。combiner函数的输出作为reduce函数的输入...

2019-05-10 12:27:29 305

转载 Hadoop Combiner与自定义Combiner

链接:https://www.cnblogs.com/edisonchou/p/4297786.html

2019-05-10 12:24:07 160

原创 Hadoop MapReduce框架Partitioner分区方法

前言:对于二次排序相信大家也是似懂非懂,我也是一样,对其中的很多方法都不理解诶,所有只有暂时放在一边,当你接触到其他的函数,你知道的越多时你对二次排序的理解也就更深入了,同时建议大家对wordcount的流程好好分析一下,要真正的知道每一步都是干什么的。1.Partitioner分区类的作用是什么?2.getPartition()三个参数分别是什么?3.numReduceTasks指的是设...

2019-05-10 12:21:41 151

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除