镜子里的宇宙-CSDN博客

原创 Sqoop 导出

Sqoop 导出介绍默认模式导出HDFS数据到mysql更新导出（updateonly模式）更新导出（allowinsert模式）介绍将数据从Hadoop生态体系导出到RDBMS数据库导出前，目标表必须存在于目标数据库中。export有三种模式：默认操作是从将文件中的数据使用INSERT语句插入到表中。更新模式：Sqoop将生成UPDATE替换数据库中现有记录的语句。调用模式：Sqoop将为每条记录创建一个存储过程调用。以下是export命令语法：$ sqoop export (gene

2021-12-06 16:35:38 1260 1

原创 Sqoop 导入

Sqoop 导入全量导入mysql表数据到HDFS全量导入mysql表数据到HIVE导入表数据子集(where过滤)导入表数据子集(query查询)增量导入Append模式增量导入Lastmodified模式增量导入Lastmodified模式:append、merge-key“导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文本数据下面的语法用于将数据导入HDFS。$ sqoop import (generic-args) (import-ar

2021-12-06 16:06:57 544

原创 Apache Sqoop 介绍安装

Apache Sqoop 介绍安装Apache Sqoop介绍sqoop安装Apache Sqoop介绍Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括：HDFS、Hive、Hbase等RDBMS体系包括：Mysql、Oracle、D

2021-12-06 15:39:05 274

原创 Kafka核心理论要点

Kafka核心理论要点什么是消息队列？消息队列有什么好处？Kafka是什么？Kafka在大数据中用于什么场景下？请简述Kafka的集群架构Kafka中消费者与消费者组的关系是什么？Kafka中Topic和Partition是什么，如何保证Partition数据安全？Kafka中的Segment是什么？Kafka中的Offset是什么？请简述如何使用Kafka Simple Java API 实现数据生产？描述具体的类及方法请简述如何使用Kafka Simple Java API 实现数据消费？描述具体的类

2021-12-06 15:11:05 801 3

原创 Scala

Scala编程语言范式Scala的介绍Scala开发环境安装在这里插入图片描述IDEA中Scala插件安装基础语法：变量及常量基础语法：数据类型基础语法：字符串使用及插值表达式基础语法：块表达式与if判断基础语法：for循环基础语法：while循环基础语法：跳出循环Breaks基础语法：while循环基础语法：跳出循环Breaks方法的定义及语法规则方法的参数的使用方法的调用形式函数的定义及语法规则函数的分类方法转换成函数数组与集合的分类在这里插入图片描述编程语言范式目标：了解常见的编程语言范式及优

2021-04-08 09:11:42 536

原创 Kafka

Kafka传统架构面临的问题消息队列：MQ介绍消息队列：同步与异步消息队列：点对点模式消息队列：订阅发布模式Kafka的特点Kafka概念：Producer、Broker、ConsumerKafka概念：Topic、PartitionKafka概念：分区副本机制Kafka概念：SegmentKafka概念：OffsetKafka概念：概念对比总结传统架构面临的问题目标：了解传统架构中存在的问题及解决方案路径step1：传统网站的存储架构step2：高并发读问题step3：高并发写问题

2021-04-01 11:48:16 1156 1

原创 Hbase优化

Hbase优化Hbase优化：内存分配Hbase优化：压缩机制Hbase优化：布隆过滤Hbase优化：列族属性Hbase优化：其他优化Hbase优化：内存分配目标了解Hbase中内存的管理及分配分析写缓存：Memstore读缓存：BlockCache使用的RegionServer的JVM堆内存注意：所有使用JVM堆内存工具，都会有一个共同的问题：GC停顿合理设计垃圾回收的机制来回收内存，避免GC停顿实现MemStore：写缓存hbase.regionse

2021-03-26 15:18:05 311

原创 MapReduce集成Hbase

MapReduce集成HbaseMR集成Hbase：读Hbase规则MR集成Hbase：读Hbase实现MR集成Hbase：写Hbase规则MR集成Hbase：写Hbase实现附录一：Maven依赖MR集成Hbase：读Hbase规则目标掌握MapReduce中读取Hbase的开发规则分析读取由InputFormat决定TextInputFormat：读取文件中的内容，每一行返回一个KVK：行的偏移量：LongWritableV：行的内容值：TextTableIn

2021-03-26 15:13:22 278

原创 Hbase理论知识点概要

Hbase理论知识点概要问题01：Hbase的功能与应用场景？问题02：Hbase有什么特点？问题03：Hbase设计思想是什么？问题04：Hbase与HDFS的区别是什么？问题05：Hbase与MySQL的区别是什么？问题06：Hbase与Hive的区别是什么？问题07：Hbase的按列存储是什么？问题08：请简述Namespace、Rowkey、ColumnFamily及多版本的功能及含义问题09：请简述Hbase的分布式主从架构问题10：请简述Table表与RegionServer的关系问题11：表的

2021-03-25 17:06:22 575

原创 Phoenix

PhoenixPhoenix的介绍Phoenix的安装配置Phoenix的语法：DDL：NSPhoenix的语法：DDL：TablePhoenix的语法：DML：upsertPhoenix的语法：DML：delete## Phoenix的语法：DQL：selectPhoenix的使用：预分区Phoenix的使用：加盐saltPhoenix的使用：视图Phoenix的使用：JDBCPhoenix二级索引设计二级索引：全局索引设计二级索引：全局索引实现二级索引：覆盖索引设计二级索引：覆盖索引实现二级索引：本地索

2021-03-25 17:04:57 624

原创 Hive on Hbase

Hive on HbaseHive on Hbase介绍Hive on Hbase 配置Hive on Hbase 实现Hive on Hbase介绍功能：实现Hive与Hbase集成，使用Hive SQL对Hbase的数据进行处理原理Hive的功能：使用HQL对表的数据进行处理本质：通过MapReduce对HDFS中的文件进行处理原理TextInputFormat：读文件TextOutputFormat：写文件MapReduce的功能：读取数据进行

2021-03-25 16:41:10 1051

原创 Hbase DML、DDL命令 JavaAPI

Hbase DML、DDL命令 JavaAPIHbase理论Hbase使用场景Hbase运行命令脚本文件DDL命令：NS的管理DDL命令：Table的管理DML命令：putDML命令：getDML命令：scanDML命令：deleteDML命令：incrDML命令：countJavaAPI：构建工程依赖JavaAPI：DDLHbase理论Hbase的介绍功能：分布式NoSQL列存储数据库，用于实现大数据高性能的实时随机的数据存储应用场景：所有实时数据存储的场景特点分布式内存 + 分布式磁

2021-03-17 18:05:53 746

原创 Hbase集群搭建

Hbase集群搭建集群搭建HBASE集群测试集群搭建以三台虚拟机为例1、解压安装上传HBASE安装包到第一台机器的/export/software目录下cd /export/software/解压安装tar -zxvf hbase-2.1.0.tar.gz -C /export/server/cd /export/server/hbase-2.1.0/2、修改配置切换到配置文件目录下cd /export/server/hbase-2.1.0/conf/修改h

2021-03-17 17:19:22 172

原创 Hbase理论

Hbase理论离线与实时HBASE诞生Hbase功能及应用场景HBASE设计思想HBASE中的对象概念HBASE中的存储概念HBASE中的按列存储HBASE集群架构离线与实时离线项目为例数据生成：用户访问咨询数据、意向用户报名信息、考勤信息数据采集Flume：实时数据采集：采集文件或者网络端口Sqoop：离线数据同步：采集数据库的数据数据存储HDFS：分布式离线文件存储系统Hive：离线数据仓库将HDFS上的文件映射成了表的结构，让用户可以通过数据库和表的形式来管理大数据

2021-03-17 17:10:22 647

原创 Hive 优化

Hive 优化并行优化小文件优化矢量化查询读取零拷贝优化数据倾斜优化JOIN的时候的倾斜方案一方案二方式1：运行时判断方式2：编译时判断Union优化GROUP BY分组统计的倾斜处理优化1:优化2：MapReduce迭代计算的概念（补充）MapReduce的计算模型MR的迭代Hive优化小总结并行优化并行编译Hive默认情况下，只能同时编译一个SQL到MapReduce代码的转换，并对这个过程上锁。为了提高效率，同时减少死锁发生的可能性，我们需要将这个一次只能编译一个的操作，优化为并行执行。

2021-01-11 16:49:13 1172

原创 Cloudera Manager 环境搭建

Cloudera Manager 环境搭建ClouderaManager环境安装前准备搭建3台服务器修改网卡修改ip地址更改主机名更改主机名与IP地址的映射关闭防火墙关闭selinuxSSH免密登录安装MySQL安装JDK三台机器时钟同步解除linux系统打开文件最大数量的限制设置linux交换区内存ClouderaManager安装资源下载启动服务浏览器页面访问ClouderaManager环境安装前准备这里我们准备三台虚拟机，其中一台作为我们的主节点，安装我们的ClouderaManager Ser

2020-12-18 17:25:28 725

原创 Cloudera Manager 理论

Cloudera Manager 理论Cloudera Manager介绍ClouderaManager整体架构Cloudera Management Service信号检测状态管理服务器和客户端配置进程管理主机管理安全身份验证Cloudera Manager介绍Cloudera Manager是cloudera公司提供的一种大数据的解决方案，可以通过ClouderaManager管理界面来对我们的集群进行安装和操作，提供了良好的UI界面交互，使得我们管理集群不用熟悉任何的linux技术，只需要通过网

2020-12-18 16:58:32 280 1

原创 MapReduce 的 combiner

MapReduce 的 combiner原理代码实现原理每一个 map 都可能会产生大量的本地输出，Combiner 的作用就是对 map 端的输出先做一次合并，以减少在 map 和 reduce 节点之间的数据传输量，以提高网络IO 性能，是 MapReduce 的一种优化手段之一。combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件combiner 组件的父类就是 Reducercombiner 和 reducer 的区别在于运行的位置：Combiner 是

2020-12-11 10:17:02 445

原创 Impala-shell 命令参数 sql语法 java开发

Impala-shell 命令参数 sql语法 java开发impala-shell外部命令impala-shell内部命令Impala sql语法数据库特定语句表特定语句Impala数据导入方式load dataImpala的java开发下载impala jdbc依赖创建java工程java apiimpala-shell外部命令所谓的外部命令指的是不需要进入到impala-shell交互命令行当中即可执行的命令参数。impala-shell后面执行的时候可以带很多参数。你可以在启动 impala-

2020-12-10 17:59:12 725

原创 Impala 安装部署

Impala 安装部署安装前提下载安装包、依赖包虚拟机新增磁盘（可选）配置本地yum源安装Impala修改impala配置安装impala后hadoop，hive等会自动重新安装原有数据无法使用谨慎选择是否先准备快照安装impala后hadoop，hive等会自动重新安装原有数据无法使用谨慎选择是否先准备快照安装impala后hadoop，hive等会自动重新安装原有数据无法使用谨慎选择是否先准备快照安装前提集群提前安装好hadoop，hive。hive安装包scp在所有需要安装i

2020-12-10 17:27:40 1309

原创 Apache Impala 理论

Apache ImpalaImpala基本介绍Impala与Hive关系Impala与Hive异同Impala使用的优化技术执行计划数据流内存使用调度容错适用面Impala架构ImpaladImpala State StoreCLICatalogd（目录）Impala查询处理过程Impala基本介绍impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工

2020-12-07 21:24:00 111 1

原创 Azkaban 安装部署

Azkaban安装部署solo-server模式部署节点规划解压配置启动验证登录web页面two-server模式部署节点规划解压文件准备工作生成密钥库Web服务器配置执行服务器配置启动executor服务器启动web服务器Azkaban使用实战shell command调度邮件通知job依赖调度HDFS任务调度MAPREDUCE任务调度HIVE脚本任务调度定时任务调度solo-server模式部署节点规划解压配置tar -zxvf azkaban-solo-server-0.1.0-SNAPSH

2020-12-07 16:12:58 1267

原创 Azkaban 理论

Azkaban工作流工作流产生背景工作流调度实现方式工作流调度工具之间对比Azkaban 调度器Azkaban 介绍工作流工作流产生背景工作流（Workflow），指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是：为了实现某个业务目标，利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。一个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的：数据采集、数据预处理、数据分析、数据展示

2020-12-07 15:23:26 204

原创 Apache Hue 软件的集成

Apache Flume 与软件的集成Hue集成HDFSHue集成YARNHue集成HiveHue集成MysqlHue集成OozieHue集成HDFS注意修改完HDFS相关配置后，需要把配置scp给集群中每台机器，重启hdfs集群修改core-site.xml配置cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoopvim core-site.xml <!-- 允许通过httpfs方式访问hdfs的主机名 --&gt

2020-12-03 18:24:55 255

原创 Apache Hue 介绍 & 安装

Apache HueHue介绍Hue的安装Hue汉化界面Hue介绍Hue是什么HUE=Hadoop User ExperienceHue是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基于Python Web框架Django实现的。通过使用Hue，可以在浏览器端的Web控制台上与Hadoop集群进行交互，来分析处理数据，例如操作HDFS上的数据，运行MapReduc

2020-12-03 17:50:38 560

原创 Apache Flume 数据流监控

数据流监控Ganglia的安装与部署操作Flume测试监控Ganglia的安装与部署安装httpd服务与phpyum -y install httpd php安装其他依赖yum -y install rrdtool perl-rrdtool rrdtool-develyum -y install apr-devel安装gangliayum -y install ganglia-gmetad yum -y install ganglia-webyum install -y

2020-12-03 17:02:42 250

原创 Apache Flume 拦截器

Apache Flume 拦截器拦截器Flume自定义拦截器案例场景A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log现在要求：把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。但是在hdfs中要求的目录为：/source/logs/access/20200101/**/source/logs/nginx/20200101/**/source/logs/web/202001

2020-12-03 16:52:27 310

原创 Apache Flume load-balance、failover

load-balance、failoverflume的高可用搭建failover案例flume 的负载均衡 load balancer在完成单点的Flume NG搭建后，下面我们搭建一个高可用的Flume NG集群，架构图如下所示：Flume的Agent和Collector分布如下表所示：图中所示，Agent1数据分别流入到Collector1和Collector2，Flume NG本身提供了Failover机制，可以自动切换和恢复。在上图中，有3个产生日志服务器分布在不同的机房，要把所有的日志都

2020-12-03 16:15:57 189 1

空空如也

空空如也