IT新手村小蒋-CSDN博客

原创 Azkaban

Azkaban：一个批量工作流任务调度器，主要用于在一个工作流内以一个特定的顺序运行一组工作和流程，它的配置是通过简单的 key:value 对的方式，通过配置中的 dependencies 来设置依赖关系。Azkaban 使用 job 配置文件建立任务之间的依赖关系，并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。端口号为：8443Azkaban 特点： 1）兼容任何版...

2019-09-22 18:05:25 435

原创 HBase 命令

HBase 基本命令： 1、进入 HBase 客户端： hbase shell 如果出现 jdk 的警告，则对 conf 下的 hbase-env.sh 文件中的第 45-47 行进行注释： 2、查看帮助命令 hbase(main)> help 3、查看当前数据库中有那些表 hbase(main)> list 4、查看当前数据库中有哪些命名空...

2019-09-21 23:38:05 389

原创 HBase 集群部署

HBase 部署: 1、首先保证 Zookeeper 集群的正常部署，并启动： zkServer.sh start 2、Hadoop 集群的正常部署并启动： start-dfs.sh start-yarn.sh 3、HBase 解压：将 HBase 包解压到指定文件：tar -zxvf hbase-1.3.1-bin.tar.gz -C /opt/mod...

2019-09-21 23:32:15 365

原创 HBase

HBase:HBase 简介： HBase 是一个分布式的、面向列的开源数据库，它是一个适合于非结构化数据存储的数据库。HBase 基于列的而不是基于行的模式。大：上亿行、百万列面向列：面向列的存储和权限控制，列独立检索稀疏：对于为空的列，并不占用存储空间，因此，表设计得非常的稀疏HBase 角色：HMaster：功能： 1、监控 RegionServe...

2019-09-21 23:28:28 253

原创 HBase 原理

HBase:HBase 简介： HBase 是一个分布式的、面向列的开源数据库，它是一个适合于非结构化数据存储的数据库。HBase 基于列的而不是基于行的模式。大：上亿行、百万列面向列：面向列的存储和权限控制，列独立检索稀疏：对于为空的列，并不占用存储空间，因此，表设计得非常的稀疏HBase 角色：HMaster：功能： 1、监控 RegionServe...

2019-09-19 15:37:41 250

原创 Sqoop在一些常用命令及参数

常用命令列举这里给大家列出来了一部分Sqoop操作时的常用参数，以供参考，需要深入学习的可以参看对应类的源代码。序号命令类说明1importImportTool将数据导入到集群2exportExportTool将集群数据导出3codegenCodeGenTool获取数据库中某张表数据生成Java并打包Jar4create-hiv...

2019-09-16 10:22:09 677

原创 Sqoop的导入导出

Sqoop 导入数据：在 Sqoop 中，“导入”概念指：从非大数据集群（RDBMS）向大数据集群（HDFS，HIVE，HBASE）中传输数据，叫做：导入，即使用 import 关键字。RDBMS 到 HDFS： RDBMS：关系数据库管理系统全部导入：#!/usr/bin/env bashsqoop import \--connect jdbc:mysql://bigd...

2019-09-16 10:20:44 306

原创 Sqoop的原理与安装

Sqoop 简介： Apache Sqoop™ 是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop于2012年3月孵化出来，现在是一个顶级的Apache项目。请注意，1.99.7与1.4.6不兼容，且没有特征不完整，它并不打算用于生产部署。Sqoop 原理：将导入或导出命令翻译成 mapreduce 程序来实现...

2019-09-16 10:19:57 347

原创 Hive的查询与函数

基本查询：算数运算符：运算符描述A+BA和B 相加A-BA减去BA*BA和B相乘A/BA除以BA%BA对B取余/模A&BA和B按位取与A|BA和B按位取或A^BA和B按位取异或~AA按位取反常用函数： 1、求行数（count）：hive (jds)> select count(1) ...

2019-09-16 10:16:08 549

原创 Hive的数据类型与DML和DDL

Hive 数据类型：基本数据类型：Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型，true或者falseTRUE ...

2019-09-16 10:13:01 282

原创 Hive的配置和一些案例

Hive 元数据配置到 MySql：在 /opt/module/hive/lib/ 中添加 mysql-connector-java-5.1.27-bin.jar 包在 /opt/module/hive/conf 目录下创建 hive-site.xml 并添加一下内容： vi hive-site.xml<?xml version="1.0"?><?xml-st...

2019-09-16 10:10:29 315

原创 Hive原理与安装

原理：由 Facebook 开发的开源的数据统计工具。是基于 Hadoop 的一个数据仓库工具。本质：将 HQL/SQL 转化成 MapReduce 程序 1）Hive 处理的数据存储在 HDFS 2）Hive 分析数据底层的实现是 MapReduce 3）执行程序运行在 Yarn 上Hive的优缺点：优点： 1）操作接口采用类 SQL 语法，提供...

2019-09-16 10:07:28 208

原创 HDFS-HA

HDFS HA 高可用概述： 1）所谓HA（high available），即高可用（7*24小时不中断服务）。 2）实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。 3）Hadoop2.0之前，在HDFS集群中NameNode存在单点故障（SPOF）。 4）NameNode主要在以下两个方面影响HDFS集群...

2019-06-26 22:48:44 364

原创 Zookeeper实战

Zookeeper实战：分布式安装部署 0）集群规划在bigdata111、bigdata112和bigdata113三个节点上部署Zookeeper。 1）解压安装（1）解压zookeeper安装包到/opt/module/目录下[itstar@bigdata111 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C...

2019-06-25 23:37:26 443

原创 Zookeeper安装

Zookeeper安装：下载地址：https://zookeeper.apache.org/部署：1）安装前准备：（1）安装jdk （2）上传zookeeper到linux系统下（3）修改tar包权限[itstar@bigdata111 software]$ chmod u+x zookeeper-3.4.10.tar.gz （4）解压到指定目录[itstar@...

2019-06-25 23:36:25 729

原创 Zookeeper

Zookeeper：概述： Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。特点： 1）Zookeeper：一个领导者（leader），多个跟随者（follower）组成的集群。 2）Leader负责进行投...

2019-06-25 23:34:47 181

原创 MR自定义输入输出

自定义InputFormat：1）需求无论hdfs还是mapreduce，对于小文件都有损效率，实践中，又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。将多个小文件合并成一个文件SequenceFile，SequenceFile里面存储着多个文件，存储的形式为文件路径+名称为key，文件内容为value。3）分析小文件的优化无非以下几种方式：（1）在数据采集的时...

2019-06-25 22:47:57 488

原创 Yarn工作机制

Yarn工作机制概述： Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。基本架构： YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。工作机制：解释：资源：在 YARN 的语...

2019-06-25 22:46:56 501

原创 Map和Reduce多表合并

MapReduce中多表合并：合并选择： Map：使用于一个小表一个大表 reduce：使用于同时为大表的情况Map端表合并：优点：适用于关联表中有小表的情形；可以将小表分发到所有的map节点，这样，map节点就可以在本地对自己所读到的大表数据进行合并并输出最终结果，可以大大提高合并操作的并发度，加快处理速度。代码实现：MapJoin.javapublic cl...

2019-06-25 22:42:21 651

原创 Shuffle机制和压缩

Shuffle机制：Mapreduce确保每个reducer的输入都是按键排序的。系统执行排序的过程（即将map输出作为输入传给reducer）称为shuffle。Hadoop 数据压缩：概述：压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadoop下，尤其是数据规模很大和工作负载密集的情况下，使用数据压缩显得非常重要。在这种情况下，I...

2019-06-25 22:39:43 540

原创 MapReduce 框架 + 切片

MapReduce 框架原理： 1、流程示意图： 2、流程详细：上面的流程是整个 mapreduce 最全工作流程，但是 shuffle 过程只是从第 7 步开始到第 15 步结束，具体 shuffle 过程详解，如下： 1）maptask 收集我们的 map() 方法输出的 KV 对，放到内存缓冲区中 2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文...

2019-06-25 22:37:36 354

原创 WordCount

WordCount 案例： 1、需求：给定一个文本文件，统计输出文本文件中每个单词出现的总次数。 2、数据文本：//文件内容： hello world atguigu atguigu hadoop spark hello world atguigu atguigu hadoop spark hello world...

2019-06-25 22:34:57 374

原创 MapReduce（大数据）

MapReduce 入门：1、 MapReduce定义 Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。 Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。2、 MapReduce优缺点优点 1） **MapReduce易于编程。*...

2019-06-25 22:32:45 464

转载大数据之Hadoop（HDFS文件系统）

大数据之Hadoop（HDFS文件系统）HDFS文件系统概念： 1.1、概念： HDFS，它是一个文件系统，全称：Hadoop distributed File System ，用于存储问价通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。注：服务器默认为3台。 1.2、组成： 1）、HDFS集群包括，NameN...

2019-06-11 21:19:19 918

原创大数据简单的配置步骤

Linux环境下：修改IP：// vi /etc/sysconfig/network-scripts/ifcfg-ens33 // BOOTPROTO=static // ONBOOT=yes // IPADDR=192.168.X.51 // GATEWAY=192.168.X.2 // DNS1=8.8.8.8 // DNS2=8.8.4.4 // NETMASK=255....

2019-05-15 16:10:48 584

JiangDongS的博客