自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(75)
  • 收藏
  • 关注

原创 Sqoop 导出

Sqoop 导出介绍默认模式导出HDFS数据到mysql更新导出(updateonly模式)更新导出(allowinsert模式)介绍将数据从Hadoop生态体系导出到RDBMS数据库导出前,目标表必须存在于目标数据库中。export有三种模式:默认操作是从将文件中的数据使用INSERT语句插入到表中。更新模式:Sqoop将生成UPDATE替换数据库中现有记录的语句。调用模式:Sqoop将为每条记录创建一个存储过程调用。以下是export命令语法:$ sqoop export (gene

2021-12-06 16:35:38 950 1

原创 Sqoop 导入

Sqoop 导入全量导入mysql表数据到HDFS全量导入mysql表数据到HIVE导入表数据子集(where过滤)导入表数据子集(query查询)增量导入Append模式增量导入Lastmodified模式增量导入Lastmodified模式:append、merge-key“导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文本数据下面的语法用于将数据导入HDFS。$ sqoop import (generic-args) (import-ar

2021-12-06 16:06:57 344

原创 Apache Sqoop 介绍安装

Apache Sqoop 介绍安装Apache Sqoop介绍sqoop安装Apache Sqoop介绍Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括:HDFS、Hive、Hbase等RDBMS体系包括:Mysql、Oracle、D

2021-12-06 15:39:05 194

原创 Kafka核心理论要点

Kafka核心理论要点什么是消息队列?消息队列有什么好处?Kafka是什么?Kafka在大数据中用于什么场景下?请简述Kafka的集群架构Kafka中消费者与消费者组的关系是什么?Kafka中Topic和Partition是什么,如何保证Partition数据安全?Kafka中的Segment是什么?Kafka中的Offset是什么?请简述如何使用Kafka Simple Java API 实现数据生产?描述具体的类及方法请简述如何使用Kafka Simple Java API 实现数据消费?描述具体的类

2021-12-06 15:11:05 196 3

原创 Scala

Scala编程语言范式Scala的介绍Scala开发环境安装在这里插入图片描述IDEA中Scala插件安装基础语法:变量及常量基础语法:数据类型基础语法:字符串使用及插值表达式基础语法:块表达式与if判断基础语法:for循环基础语法:while循环基础语法:跳出循环Breaks基础语法:while循环基础语法:跳出循环Breaks方法的定义及语法规则方法的参数的使用方法的调用形式函数的定义及语法规则函数的分类方法转换成函数数组与集合的分类在这里插入图片描述编程语言范式目标:了解常见的编程语言范式及优

2021-04-08 09:11:42 403

原创 Kafka

Kafka传统架构面临的问题消息队列:MQ介绍消息队列:同步与异步消息队列:点对点模式消息队列:订阅发布模式Kafka的特点Kafka概念:Producer、Broker、ConsumerKafka概念:Topic、PartitionKafka概念:分区副本机制Kafka概念:SegmentKafka概念:OffsetKafka概念:概念对比总结传统架构面临的问题目标:了解传统架构中存在的问题及解决方案路径step1:传统网站的存储架构step2:高并发读问题step3:高并发写问题

2021-04-01 11:48:16 298 1

原创 Hbase优化

Hbase优化Hbase优化:内存分配Hbase优化:压缩机制Hbase优化:布隆过滤Hbase优化:列族属性Hbase优化:其他优化Hbase优化:内存分配目标了解Hbase中内存的管理及分配分析写缓存:Memstore读缓存:BlockCache使用的RegionServer的JVM堆内存注意:所有使用JVM堆内存工具,都会有一个共同的问题:GC停顿合理设计垃圾回收的机制来回收内存,避免GC停顿实现MemStore:写缓存hbase.regionse

2021-03-26 15:18:05 228

原创 MapReduce集成Hbase

MapReduce集成HbaseMR集成Hbase:读Hbase规则MR集成Hbase:读Hbase实现MR集成Hbase:写Hbase规则MR集成Hbase:写Hbase实现附录一:Maven依赖MR集成Hbase:读Hbase规则目标掌握MapReduce中读取Hbase的开发规则分析读取由InputFormat决定TextInputFormat:读取文件中的内容,每一行返回一个KVK:行的偏移量:LongWritableV:行的内容值:TextTableIn

2021-03-26 15:13:22 161

原创 Hbase理论知识点概要

Hbase理论知识点概要问题01:Hbase的功能与应用场景?问题02:Hbase有什么特点?问题03:Hbase设计思想是什么?问题04:Hbase与HDFS的区别是什么?问题05:Hbase与MySQL的区别是什么?问题06:Hbase与Hive的区别是什么?问题07:Hbase的按列存储是什么?问题08:请简述Namespace、Rowkey、ColumnFamily及多版本的功能及含义问题09:请简述Hbase的分布式主从架构问题10:请简述Table表与RegionServer的关系问题11:表的

2021-03-25 17:06:22 496

原创 Phoenix

PhoenixPhoenix的介绍Phoenix的安装配置Phoenix的语法:DDL:NSPhoenix的语法:DDL:TablePhoenix的语法:DML:upsertPhoenix的语法:DML:delete## Phoenix的语法:DQL:selectPhoenix的使用:预分区Phoenix的使用:加盐saltPhoenix的使用:视图Phoenix的使用:JDBCPhoenix二级索引设计二级索引:全局索引设计二级索引:全局索引实现二级索引:覆盖索引设计二级索引:覆盖索引实现二级索引:本地索

2021-03-25 17:04:57 247

原创 Hive on Hbase

Hive on HbaseHive on Hbase介绍Hive on Hbase 配置Hive on Hbase 实现Hive on Hbase介绍功能:实现Hive与Hbase集成,使用Hive SQL对Hbase的数据进行处理原理Hive的功能:使用HQL对表的数据进行处理本质:通过MapReduce对HDFS中的文件进行处理原理TextInputFormat:读文件TextOutputFormat:写文件MapReduce的功能:读取数据进行

2021-03-25 16:41:10 958

原创 Hbase DML、DDL命令 JavaAPI

Hbase DML、DDL命令 JavaAPIHbase理论Hbase使用场景Hbase运行命令脚本文件DDL命令:NS的管理DDL命令:Table的管理DML命令:putDML命令:getDML命令:scanDML命令:deleteDML命令:incrDML命令:countJavaAPI:构建工程依赖JavaAPI:DDLHbase理论Hbase的介绍功能:分布式NoSQL列存储数据库,用于实现大数据高性能的实时随机的数据存储应用场景:所有实时数据存储的场景特点分布式内存 + 分布式磁

2021-03-17 18:05:53 413

原创 Hbase集群搭建

Hbase集群搭建集群搭建HBASE集群测试集群搭建以三台虚拟机为例1、解压安装上传HBASE安装包到第一台机器的/export/software目录下cd /export/software/解压安装tar -zxvf hbase-2.1.0.tar.gz -C /export/server/cd /export/server/hbase-2.1.0/2、修改配置切换到配置文件目录下cd /export/server/hbase-2.1.0/conf/修改h

2021-03-17 17:19:22 120

原创 Hbase理论

Hbase理论离线与实时HBASE诞生Hbase功能及应用场景HBASE设计思想HBASE中的对象概念HBASE中的存储概念HBASE中的按列存储HBASE集群架构离线与实时离线项目为例数据生成:用户访问咨询数据、意向用户报名信息、考勤信息数据采集Flume:实时数据采集:采集文件或者网络端口Sqoop:离线数据同步:采集数据库的数据数据存储HDFS:分布式离线文件存储系统Hive:离线数据仓库将HDFS上的文件映射成了表的结构,让用户可以通过数据库和表的形式来管理大数据

2021-03-17 17:10:22 282

原创 Hive 优化

Hive 优化并行优化小文件优化矢量化查询读取零拷贝优化数据倾斜优化JOIN的时候的倾斜方案一方案二方式1:运行时判断方式2:编译时判断Union优化GROUP BY分组统计的倾斜处理优化1:优化2:MapReduce迭代计算的概念(补充)MapReduce的计算模型MR的迭代Hive优化小总结并行优化并行编译Hive默认情况下,只能同时编译一个SQL到MapReduce代码的转换,并对这个过程上锁。为了提高效率,同时减少死锁发生的可能性,我们需要将这个一次只能编译一个的操作,优化为并行执行。

2021-01-11 16:49:13 446

原创 Cloudera Manager 环境搭建

Cloudera Manager 环境搭建ClouderaManager环境安装前准备搭建3台服务器修改网卡修改ip地址更改主机名更改主机名与IP地址的映射关闭防火墙关闭selinuxSSH免密登录安装MySQL安装JDK三台机器时钟同步解除linux系统打开文件最大数量的限制设置linux交换区内存ClouderaManager安装资源下载启动服务浏览器页面访问ClouderaManager环境安装前准备这里我们准备三台虚拟机,其中一台作为我们的主节点,安装我们的ClouderaManager Ser

2020-12-18 17:25:28 386

原创 Cloudera Manager 理论

Cloudera Manager 理论Cloudera Manager介绍ClouderaManager整体架构Cloudera Management Service信号检测状态管理服务器和客户端配置进程管理主机管理安全身份验证Cloudera Manager介绍Cloudera Manager是cloudera公司提供的一种大数据的解决方案,可以通过ClouderaManager管理界面来对我们的集群进行安装和操作,提供了良好的UI界面交互,使得我们管理集群不用熟悉任何的linux技术,只需要通过网

2020-12-18 16:58:32 225 1

原创 MapReduce 的 combiner

MapReduce 的 combiner原理代码实现原理每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做一次合并,以减少在 map 和 reduce 节点之间的数据传输量,以提高网络IO 性能,是 MapReduce 的一种优化手段之一。combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件combiner 组件的父类就是 Reducercombiner 和 reducer 的区别在于运行的位置:Combiner 是

2020-12-11 10:17:02 309

原创 Impala-shell 命令参数 sql语法 java开发

Impala-shell 命令参数 sql语法 java开发impala-shell外部命令impala-shell内部命令Impala sql语法数据库特定语句表特定语句Impala数据导入方式load dataImpala的java开发下载impala jdbc依赖创建java工程java apiimpala-shell外部命令所谓的外部命令指的是不需要进入到impala-shell交互命令行当中即可执行的命令参数。impala-shell后面执行的时候可以带很多参数。你可以在启动 impala-

2020-12-10 17:59:12 622

原创 Impala 安装部署

Impala 安装部署安装前提下载安装包、依赖包虚拟机新增磁盘(可选)配置本地yum源安装Impala修改impala配置安装impala后hadoop,hive等会自动重新安装 原有数据无法使用 谨慎选择是否先准备快照安装impala后hadoop,hive等会自动重新安装 原有数据无法使用 谨慎选择是否先准备快照安装impala后hadoop,hive等会自动重新安装 原有数据无法使用 谨慎选择是否先准备快照安装前提集群提前安装好hadoop,hive。hive安装包scp在所有需要安装i

2020-12-10 17:27:40 1236

原创 Apache Impala 理论

Apache ImpalaImpala基本介绍Impala与Hive关系Impala与Hive异同Impala使用的优化技术执行计划数据流内存使用调度容错适用面Impala架构ImpaladImpala State StoreCLICatalogd(目录)Impala查询处理过程Impala基本介绍impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工

2020-12-07 21:24:00 80 1

原创 Azkaban 安装部署

Azkaban安装部署solo-server模式部署节点规划解压配置启动验证登录web页面two-server模式部署节点规划解压文件准备工作生成密钥库Web服务器配置执行服务器配置启动executor服务器启动web服务器Azkaban使用实战shell command调度邮件通知job依赖调度HDFS任务调度MAPREDUCE任务调度HIVE脚本任务调度定时任务调度solo-server模式部署节点规划解压配置tar -zxvf azkaban-solo-server-0.1.0-SNAPSH

2020-12-07 16:12:58 826

原创 Azkaban 理论

Azkaban工作流工作流产生背景工作流调度实现方式工作流调度工具之间对比Azkaban 调度器Azkaban 介绍工作流工作流产生背景工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自 动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流 解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间 按某种预定规则自动传递文档、信息或者任务。一个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的:数据 采集、数据预处理、数据分析、数据展示

2020-12-07 15:23:26 148

原创 Apache Hue 软件的集成

Apache Flume 与软件的集成Hue集成HDFSHue集成YARNHue集成HiveHue集成MysqlHue集成OozieHue集成HDFS注意修改完HDFS相关配置后,需要把配置scp给集群中每台机器,重启hdfs集群修改core-site.xml配置cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoopvim core-site.xml <!-- 允许通过httpfs方式访问hdfs的主机名 --&gt

2020-12-03 18:24:55 180

原创 Apache Hue 介绍 & 安装

Apache HueHue介绍Hue的安装Hue汉化界面Hue介绍Hue是什么HUE=Hadoop User ExperienceHue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用Hue,可以在浏览器端的Web控制台上与Hadoop集群进行交互,来分析处理数据,例如操作HDFS上的数据,运行MapReduc

2020-12-03 17:50:38 431

原创 Apache Flume 数据流监控

数据流监控Ganglia的安装与部署操作Flume测试监控Ganglia的安装与部署安装httpd服务与phpyum -y install httpd php安装其他依赖yum -y install rrdtool perl-rrdtool rrdtool-develyum -y install apr-devel安装gangliayum -y install ganglia-gmetad yum -y install ganglia-webyum install -y

2020-12-03 17:02:42 168

原创 Apache Flume 拦截器

Apache Flume 拦截器拦截器Flume自定义拦截器案例场景A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log现在要求:把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。但是在hdfs中要求的目录为:/source/logs/access/20200101/**/source/logs/nginx/20200101/**/source/logs/web/202001

2020-12-03 16:52:27 259

原创 Apache Flume load-balance、failover

load-balance、failoverflume的高可用搭建failover案例flume 的负载均衡 load balancer在完成单点的Flume NG搭建后,下面我们搭建一个高可用的Flume NG集群,架构图如下所示:Flume的Agent和Collector分布如下表所示:图中所示,Agent1数据分别流入到Collector1和Collector2,Flume NG本身提供了Failover机制,可以自动切换和恢复。在上图中,有3个产生日志服务器分布在不同的机房,要把所有的日志都

2020-12-03 16:15:57 135 1

原创 Apache Flume 简单案例

Apache Flume 简单案例采集目录到HDFS采集文件到HDFS两个agent级联采集目录到HDFS采集需求:服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去根据需求,首先定义以下3大要素采集源,即source——监控文件目录 : spooldir下沉目标,即sink——HDFS文件系统 : hdfs sinksource和sink之间的传递通道——channel,可用file channel 也可以用内存channel采集目录到HDF

2020-12-03 16:04:43 103

原创 Apache Flume 概述 & 安装部署

Apache Flume介绍概述运行机制Flume采集系统结构图简单结构复杂结构介绍在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(

2020-12-03 15:40:54 125

原创 Hive 基本操作 Shell参数

基本操作数据库基本操作数据库表基本操作管理表外部表分区表分桶表修改表hive表中加载数据hive表中的数据导出hive查询语法select常用函数LIMIT语句WHERE语句数据库基本操作创建数据库create database if not exists 数据库名;use 数据库名;说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir</name><val

2020-11-25 08:05:22 553

原创 Hive常用运算和函数

hive 常用运算和函数关系运算逻辑运算与数学运算数值运算日期函数条件函数字符串函数关系运算Hive支持的关系运算符:•常见的关系运算符•等值比较: =•不等值比较: <>•小于比较: <•小于等于比较: <=•大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE•REGEXP操作: REGEXP•等值比较: =语法:A=B操作

2020-11-23 21:21:59 420

原创 Hive 安装部署 交互使用方式

Hive安装使用mysql共享hive元数据安装解压hivecd /export/soft/tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/直接启动 bin/hivecd ../servers/hive-1.1.0-cdh5.14.0/bin/hivehive> create database mytest;缺点:多个地方安装hive后,每一个hive是拥有一套自己的元数据,大家的库、表就不统一使用mysql共享hive

2020-11-23 20:19:27 103 1

原创 Hive理论原理知识概述

Hive什么是Hive为什么使用HiveHive的特点Hive架构基本组成Hive与Hadoop的关系Hive与传统数据库对比Hive的数据存储什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具。为什么使用Hive直接使用hadoop所面临的问题:人员

2020-11-23 17:04:46 121

原创 分布式计算框架MapReduce 理论

分布式计算框架MapReduceHadoop组成什么是计算框架什么是并行计算框架什么是分布式计算理解MapReduce思想MapReduce并行计算Hadoop -MapReduce设计构思Hadoop组成Hadoop HDFS:一个高可靠、高吞吐量的分布式文件系统,对海量数据的存储。Hadoop MapReduce:一个分布式的资源调度和离线并行计算框架。Hadoop Yarn:基于HDFS,用于作业调度和集群资源管理的框架。什么是计算框架是指实现某项任务或某项工作从开始到结束的计算

2020-11-13 08:58:26 728 4

原创 hadoop_MapReduce yarn

yarnYarn通俗介绍Yarn基本架构Yarn三大组件介绍Yarn运行流程Yarn 调度器Scheduleryarn多租户资源隔离Yarn通俗介绍Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。支持多个数据处理框架(MapReduce Spark Storm等)。具有资源利用率高、运行成本底、数据共享等

2020-11-11 20:32:41 268

原创 hadoop_MapReduce 多job串联 多个reduce

job串联适用场景代码实现适用场景一个稍复杂点的处理逻辑往往需要多个mapreduce程序串联处理,多job的串联可以借助mapreduce框架的JobControl实现代码实现仅提供主类代码:package Reduce1_Reduce2;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apach

2020-11-11 20:05:04 566

原创 hadoop_MapReduce 自定义outputFormat

自定义outputFormat适用场景分析实现思路代码实现:自定义一个outputformat定义RecordWriter类定义Map定义Driver主类适用场景将最终的数据分开到不同的文件夹下面去分析程序的关键点是要在一个mapreduce程序中根据数据的不同,输出两类结果到不同目录,这类灵活的输出需求可以通过自定义outputformat来实现实现思路实现要点:1、在mapreduce中访问外部资源2、自定义outputformat,改写其中的recordwriter,改写具体输出数据

2020-11-06 14:48:33 127

原创 Hadoop_MapReduce 自定义InputFromat合并小文件

自定义InputFromat适用场景分析实现思路代码实现:自定义InputFromat自定义RecordReader定义map定义主类适用场景无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案分析小文件的优化无非以下几种方式:1、在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS2、在业务处理之前,在HDFS上使用mapreduce程序对小文件进行合并3、在mapreduce处理时,可采用combine

2020-11-05 21:23:50 228 1

原创 hadoop_MapReduce map端join算法实现

Join算法原理阐述实现示例原理阐述适用于关联表中有小表的情形;可以将小表分发到所有的map节点,这样,map节点就可以在本地对自己所读到的大表数据进行join并输出最终结果,可以大大提高join操作的并发度,加快处理速度实现示例map端的初始化方法当中获取缓存文件:package MapJoin;import org.apache.hadoop.filecache.DistributedCache;import org.apache.hadoop.fs.FSDataInputStre

2020-11-04 20:49:46 137

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除