张伯清-CSDN博客

这篇博客理由sqoop版本的下载地址：https://www.jianshu.com/p/a088713ba26bsqoop集群的搭建转载：https://blog.csdn.net/qq_33247435/article/details/84316691转载第二篇：https://www.jianshu.com/p/a088713ba26bsqoop 连接mysql的各种错误...

2019-06-11 15:17:45 610

原创 Spark-2.2.0安装和部署（分布式集群搭建，亲测可用）

转载好文章（安装spark集群的前提一定要安装scala）：https://blog.csdn.net/weixin_36394852/article/details/76030317注意：此命令只复制文件夹目录下的内容，不直接将目录及内容复制到其他主机rsync -av /usr/scala-2.11.7/ SparkWorker2:/usr/scala-2.11.7/scp命令...

2019-06-06 17:06:04 328

转载 hive基础知识及性能优化（面试必备）

转载一：https://blog.csdn.net/u011331430/article/details/79038103转载二：https://blog.csdn.net/yu0_zhang0/article/details/81776459转载三：https://www.cnblogs.com/smartloli/p/4356660.html...

2019-06-05 13:54:57 433

转载 Hive的常用三种文件存储格式详解

转载：https://blog.csdn.net/qq_26442553/article/details/79313898三者的存储格式的压缩对比和查询速度对比）:https://blog.csdn.net/qq_31807385/article/details/84796880

2019-06-05 08:58:29 923

转载大数据处理基本过程

转载：https://blog.csdn.net/qq_39438729/article/details/80211531

2019-06-05 08:53:40 326

转载 Hive压缩说明

转载：https://www.2cto.com/kf/201611/566909.html

2019-06-05 08:47:26 132

转载大数据框架项目选型（Hadoop,Spark等5种）

转载链接：https://blog.csdn.net/yimingsilence/article/details/55517426

2019-06-03 08:55:05 361

转载 Spark学习一：初识spark（系统学习）

https://blog.csdn.net/wangzq2213/article/details/81034480

2019-05-31 09:20:47 442

转载 Scala基础语法大全总结（一）

转载：https://blog.csdn.net/qq_37142346/article/details/80977744

2019-05-30 18:08:51 194

转载什么是sqoop

转载：https://www.cnblogs.com/xing901022/p/5920891.htmlsqoop的使用说明：https://help.aliyun.com/document_detail/28133.html

2019-05-30 17:11:18 182

转载 Spark 学习: spark 原理简述与 shuffle 过程介绍

转载：https://blog.csdn.net/databatman/article/details/53023818

2019-05-28 16:23:19 315

原创简单搞定Shuffle机制运行原理（shuffle流程， Combiner合并）

转载：https://blog.csdn.net/github_36444580/article/details/752089922.4.1概述1）mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle；2）shuffle:洗牌、发牌（核心机制：数据分区、排序、缓存）；3）具体来说：就是将ma...

2019-05-28 16:20:44 887

转载 hive HQL查询语句的使用

https://blog.csdn.net/m0_37324825/article/details/80485002

2019-05-28 10:21:25 300

转载 Hive入门及常用指令

转载：https://www.cnblogs.com/gcczhongduan/p/5315099.htmlhttps://blog.csdn.net/ddydavie/article/details/80667727

2019-05-28 09:46:05 130

原创 Mr 结合yarn的运行流程(运行逻辑)

1、为什么要使用YARN？为了提升集群的利用率、资源统一管理，使用YARN为上层应用提供统一的资源管理和调度的平台。2、YARN的优势？资源的统一管理和调度：集群中所有节点的资源(内存、CPU、磁盘、网络等)抽象为Container。计算框架需要资源进行运算任务时需要向YARN申请Container， YARN按照特定的策略对资源进行调度进行Container的...

2019-05-28 09:23:28 746

原创 Hdfs启动过程及文件读写流程（精简专业版本）

一.Hdfs启动过程：HDFS的启动过程分为四个阶段：第一阶段：NameNode 读取包含元数据信息的fsimage文件，并加载到内存；第二阶段：NameNode读取体现HDFS最新状态的edits日志文件，并加载到内存中第三阶段：生成检查点，SecondaryNameNode将edits日志中的信息合并到fsimage文件中第四阶段：进入安全模式，检查数据块的完整性...

2019-05-28 09:17:50 743

转载最近经历的一些大数据（Spark/Hadoop）面试题

转载：https://blog.csdn.net/lxhandlbb/article/details/54599512

2019-05-27 10:56:15 119

转载 hive 的分区和分桶

转载：https://yq.aliyun.com/articles/513814#Hive中分区表及陷阱https://blog.csdn.net/qq_35180983/article/details/82902943

2019-05-27 10:54:22 130

转载大数据Hive 面试以及知识点

转载：https://blog.csdn.net/haohaixingyun/article/details/52819588

2019-05-27 10:36:12 488

原创 oozie4.3.0的安装与配置（hadoop2.7.1分布式集群环境）

一.oozie4.3.0的的编译需要依赖mavenhttps://www.jianshu.com/p/30aa16a813a7linux中执行java或者mvn命令提示没有权限解决办法:$ chmod a+x /var/jenkins_home/jdk1.8.0_191/bin/java$ chmod a+x /var/jenkins_home/apache-maven-3.3....

2019-05-23 11:06:17 286

原创 Linux中虚拟机网络不可用解决方案

注意ip之间的对应关系第一步：第二步：第三步：

2019-05-22 19:33:00 6275

原创 HDFS读写流程（史上最精炼详细）

转载（精简）：https://blog.csdn.net/whdxjbw/article/details/81072207转载：https://blog.csdn.net/qq_30552441/article/details/81356132写详细步骤：客户端向NameNode发出写文件请求。检查是否已存在文件、检查权限。若通过检查，直接先将操作写入EditLog，并返回输出流...

2019-05-21 16:19:18 115

原创 hadoop2.71 分布式高可用（HA机制下的，并且使用自己安装的zookeeper的集群）集群 Hbase1.2.6安装

转载：https://blog.csdn.net/qq_34758475/article/details/84337320（亲测有效）hbase集群规划解压hbase将hbase-1.2.8-bin.tar.gz解压到/opt/modules/soft目录下：1.配置hbase-env.sh文件：[root@master conf]# vi hbase...

2019-05-17 16:08:23 236

转载 Hive简介

转载：https://www.cnblogs.com/qingyunzong/p/8707885.html#_label0

2019-05-17 09:48:54 124

转载 hadoop2.7 集群分布式环境 Hbase的安装

转载：https://blog.csdn.net/u014454538/article/details/83625554

2019-05-13 16:47:40 120

原创 Hadoop的各个web界面的地址

1、HDFS界面：http://potter2:50070查看NameNode状态;该端口的定义位于core-default.xml中，可以在hdfs-site.xml中修改;如果通过该端口看着这个页面，以为着NameNode节点是存活的。1、HDFS页面：500702、YARN的管理界面：80883、HistoryServer的管理界面：198884、Zookee...

2019-05-13 10:30:54 548

转载通俗理解YARN运行原理

转载：http://www.imooc.com/article/257942

2019-05-13 09:51:52 225

转载 hadoop自带的writable类型

Hadoop 中，并没有使用Java自带的基本类型类(Integer、Float等)，而是使用自己开发的类。Hadoop 自带有很多序列化类型，大致分为以下两种：实现了WritableComparable接口的类　　基础：BooleanWritable | ByteWritable　　数字：IntWritable | VIntWritable | FloatWritable | Long...

2019-05-10 16:49:25 1252

原创 Hadoop中Combiner和Partitioner应用场景

Combiner和Partitioner是用来优化MapReduce的。可以提高MapReduce的运行效率。Combiner集群上的可用带宽限制了MapReduce作业的数量，因此尽量避免map和reduce任务之间的数据传输是有利的。Hadoop允许用户针对map任务的输出指定一个combiner（就像mapper,reducer）。combiner函数的输出作为reduce函数的输入...

2019-05-10 12:27:29 305

转载 Hadoop Combiner与自定义Combiner

链接：https://www.cnblogs.com/edisonchou/p/4297786.html

2019-05-10 12:24:07 160

原创 Hadoop MapReduce框架Partitioner分区方法

前言：对于二次排序相信大家也是似懂非懂，我也是一样，对其中的很多方法都不理解诶，所有只有暂时放在一边，当你接触到其他的函数，你知道的越多时你对二次排序的理解也就更深入了，同时建议大家对wordcount的流程好好分析一下，要真正的知道每一步都是干什么的。1.Partitioner分区类的作用是什么？2.getPartition()三个参数分别是什么？3.numReduceTasks指的是设...

2019-05-10 12:21:41 151

空空如也

空空如也