![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 81
Shawlizao
这个作者很懒,什么都没留下…
展开
-
大数据学习_消息中间件_Kafka架构与实战
目录1 概念和基本架构1.1 Kafka介绍1.2 Kafka优势1.3 Kafka应用场景1.4 kafka基本架构1.5 核心概念2 Kafka安装与配置2.1 Kafka启动与基本命令3 Kafka开发实战3.1 消息的发送与接收3.2 SpringBoot 整合 Kafka1 概念和基本架构1.1 Kafka介绍Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多生产者、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web原创 2021-03-09 17:46:58 · 182 阅读 · 0 评论 -
大数据学习_Redis5.0集群的搭建与添加
## 1.环境准备yum install -y gcc-c++ yum install -y wget## 2.下载并解压rediswget http://download.redis.io/releases/redis-5.0.5.tar.gztar -zxf redis-5.0.5.tar.gz## 3.编译Redis源码cd redis-5.0.5/srcmake## 4.创建集群目录,开始安装mkdir -p /var/redis-cluster/7001make ins原创 2021-03-06 00:35:27 · 258 阅读 · 1 评论 -
大数据学习_Redis_缓存原理&设计
目录1 缓存基本思想2 Redis基础2.1 Redis介绍2.1 Redis单机版安装和使用2.3 Redis数据类型和应用场景3 Redis持久化3.1 为什么要持久化1 缓存基本思想什么是缓存?缓存原指CPU上的一种高速存储器,它先于内存与CPU交换数据,速度很快现在泛指存储在计算机上的原始数据的复制集,便于快速访问。以空间换时间的一种技术。缓存的使用场景DB缓存,减轻DB服务器压力一般情况下数据存在数据库中,应用程序直接操作数据库。当访问量上万,数据库压力增大,可以采取的方案有原创 2021-03-05 17:13:10 · 508 阅读 · 1 评论 -
大数据学习_azkaban启动及报错解决
节点安排host服务centos7-1exec-servercentos7-2web-servercentos7-3mysql,exec-server启动## 启动顺序:hdfs yarn zookeeper 1/3节点上的azkaban-exec 最后是3节点上azkaban-web# centos7-1 start-dfs.shsh /root/shell/zk.sh startstart-hbase.shcd /opt/lagou/server原创 2021-03-04 11:25:31 · 652 阅读 · 1 评论 -
大数据学习_HBase
目录1 HBase 简介1.1 HBase是什么1.2 HBase的特点1.3 HBase的应⽤2 HBase数据模型3 HBase整体架构4 HBase集群安装部署5 HBase shell 基本操作6 HBase原理深⼊6.1 HBase读数据流程6.2 HBase写数据流程6.3 HBase的flush(刷写)及compact(合并)机制6.4 Region 拆分机制6.5 HBase表的预分区(region)6.6 Region 合并7 HBaseAPI应用和优化7.1 API应用7.2 Hb原创 2021-03-01 18:39:45 · 163 阅读 · 0 评论 -
大数据学习_分布式协调服务_Zookeeper
目录1. Zookeeper简介1.1 Zookeeper是什么?1.2 zookeeper的架构组成1.3 Zookeeper 特点2 Zookeeper环境搭建2.1 Zookeeper的搭建方式1. Zookeeper简介1.1 Zookeeper是什么?Zookeeper 是一个分布式协调服务的开源框架。 主要用来解决分布式集群中应用系统的一致性问题,例如怎样避免同时操作同一数据造成脏读的问题。分布式系统中数据存在一致性的问题!!ZooKeeper 本质上是一个分布式的小文件存储系统。 提原创 2021-03-01 10:55:39 · 323 阅读 · 1 评论 -
大数据学习_问题解决_Idea多次启动同一个main 方法
在使用zk自身api进行动态监听的学习中,需要启动两次server中的main方法提供两个服务器。没有勾选下图中allow parallel run会导致第二次启动时停止第一次启动,把他打开即可多次启动同一个main方法。完美启动。...原创 2021-02-28 19:31:00 · 248 阅读 · 0 评论 -
大数据学习_问题解决_设定hdfs短路读取后datanode不启动问题
出现问题:在进行impala配置时,由于设置了短路读取,导致启动dfs时无法启动datanode,集群也一直处于安全模式中。# 2.修改hdfs-site.xml<!--添加如下内容 --> <!--打开短路读取开关 --> <!-- 打开短路读取配置--> <property> <name>dfs.client.read.shortcircuit</name> <value>true</value原创 2021-02-25 00:30:41 · 603 阅读 · 4 评论 -
大数据学习_交互式查询工具 Impala
目录1 Impala概述(实时交互式查询工具)1.1 Impala是什什么1.2 Impala优势主要内容第 1 部分 Impala概述(Impala是什什么,优势,劣势,与Hive对⽐比)第 2 部分 Impala的安装(制作本地Yum源⽅方式安装)第 3 部分 Impala的架构原理理(有哪些组件,组件的作⽤用,查询流程,查询计划)第 4 部分 Impala的使⽤用(使⽤用与Hive类似,编写sql⽅方式; Impala的DDL,查询语法,导⼊入数据)第 5 部分 Impala的Java 开原创 2021-02-25 00:20:55 · 841 阅读 · 3 评论 -
大数据学习_数据迁移工具 Sqoop
目录1 Sqoop概述2 安装配置3 应用案例3.1 导入数据3.2 导出数据3.3 增量数据导入1 Sqoop概述Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql等)间进行数据的传递。可以将关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导入到HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发原创 2021-02-24 14:43:02 · 695 阅读 · 0 评论 -
大数据学习_数据采集工具 Flume
目录1 Flume概述1.1 Flume的定义1.2 Flume体系结构1.3 Flume拓扑结构21 Flume概述1.1 Flume的定义Flume由Cloudera公司开发,是一个分布式、高可靠、高可用的海量日志采集、聚合、传输的系统。Flume支持在日志系统中定制各类数据发送方,用于采集数据;Flume提供对数据进行简单处理,并写到各种数据接收方的能力。简单的说,Flume是实时采集日志的数据采集引擎。Flume有3个重要组件:Source、Channel、Sink特点:分布原创 2021-02-22 18:21:04 · 844 阅读 · 1 评论 -
大数据学习_Hive_调优策略/_Hue的安装和使用
目录1 Hive调优策略1.1 架构优化1.2 参数优化1.3 SQL优化1 Hive调优策略Hive作为大数据领域常用的数据仓库组件,在设计和开发阶段需要注意效率。影响Hive效率的不仅仅是数据量过大;数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等因素都对Hive的效率有影响。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。从以下三个方面展开:架构优化参数优化SQL优化1.1 架构优化执行引擎Hive支持多种执行引原创 2021-02-19 01:26:19 · 758 阅读 · 0 评论 -
大数据学习_Hive_DML
目录1 HQL操作之--DML命令1.1 Hive 事务1.2 Hive 事务操作示例2 元数据管理与存储2.1 Metastore2.2 HiveServer21 HQL操作之–DML命令数据操纵语言DML(Data Manipulation Language),DML主要有三种形式:插入(INSERT)、删除(DELETE)、更新(UPDATE)。事务(transaction)是一组单元化操作,这些操作要么都执行,要么都不执行,是一个不可分割的工作单元。事务具有的四个要素:原子性(Atomic原创 2021-02-10 00:18:10 · 240 阅读 · 0 评论 -
大数据学习_Hive_DQL操作及函数
目录1 HQL操作之 -- DQL命令1.1 基本查询1.2 where子句1.3 group by子句1.4 表连接1.5 排序子句【重点】2 函数【重难点】2.1 系统内置函数1 HQL操作之 – DQL命令DQL – Data Query Language 数据查询语言select语法:SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROU原创 2021-02-04 11:40:39 · 345 阅读 · 0 评论 -
大数据学习_Hive_背景与基本操作
目录1 Hive概述1.1 Hive产生背景1.2 Hive和RDBMS(关系数据库管理系统)对比1.3 Hive的优缺点1.4 Hive架构1 Hive概述1.1 Hive产生背景直接使用MapReduce处理大数据,将面临以下问题:MapReduce 开发难度大,学习成本高(wordCount => Hello World)Hdfs文件没有字段名、没有数据类型,不方便进行数据的有效管理使用MapReduce框架开发,项目周期长,成本高Hive是基于Hadoop的一个数据仓库工原创 2021-02-01 23:47:17 · 224 阅读 · 0 评论 -
大数据学习_Hadoop_调优及二次开发示例
目录1 Job执行三原则1.1 原则一 充分利用集群资源1.2 原则二 ReduceTask并发调整1.3 原则三 Task执行时间要合理2 Shuffle调优2.1 Map阶段2.2 Copy阶段2.3 Reduce阶段3 Job调优1 Job执行三原则充分利用集群资源reduce阶段尽量放在一轮每个task的执行时间要合理1.1 原则一 充分利用集群资源Job运行时,尽量让所有的节点都有任务处理,这样能尽量保证集群资源被充分利用,任务的并发度达到最大。可以通过调整处理的数据量大小,以原创 2021-02-01 21:55:07 · 790 阅读 · 0 评论 -
大数据学习_Hadoop_Hadoop 3.x 新特性概述
目录1 Hadoop3.x新特性之Common改进2 Hadoop3.x新特性之YARN改进3 Hadoop3.x新特性之MapReduce改进Hadoop3.x中增强了很多特性,在Hadoop3.x中,不再允许使用jdk1.7,要求jdk1.8以上版本。这是因为Hadoop2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本,而这正Hadoop3.x。Hadoop3.x以后将会调整方案架构,将Map原创 2021-02-01 15:43:11 · 327 阅读 · 0 评论 -
大数据学习_Hadoop_YARN资源调度
目录1 Yarn架构2 Yarn任务提交(工作机制)3 Yarn调度策略4 Yarn多租户资源隔离配置1 Yarn架构**ResourceManager(rm):**处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度;**NodeManager(nm):**单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令;**ApplicationMaster(am):**数据切分、为应用程序原创 2021-01-31 19:11:13 · 120 阅读 · 0 评论 -
大数据学习_Hadoop_MR算法扩展
1 MergeSort 归并排序合并的过程:合并细节(开辟一半的空间即可):不断地将当前序列平均分割成 2个子序列 直到不能再分割(序列中只剩 1个元素)不断地将 2个子序列合并成一个有序序列 直到最终只剩下 1个子序列...原创 2021-01-31 18:12:27 · 128 阅读 · 0 评论 -
大数据学习_Hadoop_MapReduce编程框架
目录1 MapReduce思想2 官方WordCount案例源码解析2.1 Hadoop序列化3 MapReduce编程规范及示例编写3.1 Mapper类3.2 Reducer类3.3 Driver阶段1 MapReduce思想MapReduce的思想核心是分而治之,充分利用了并行处理的优势。MapReduce任务过程是分为两个处理阶段:Map阶段:Map阶段的主要作用是“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。Map阶段的这些任务可以并行计算,彼此间没有依赖关系。(计算代码相原创 2021-01-27 21:09:19 · 508 阅读 · 2 评论 -
大数据学习_Hadoop_HDFS分布式文件系统
目录1 HDFS简介2 HDFS的重要概念3 HDFS 架构4 HDFS 客户端操作4.1 Shell 命令行操作HDFS4.2 Win环境下JAVA客户端5 HDFS读写解析5.1 HDFS读数据流程5.2 HDFS写数据流程6 NN与2NN6.1 HDFS元数据管理机制6.2 Fsimage与Edits文件解析6.2.1 Fsimage文件内容6.2.2 Edits文件内容6.3 checkpoint周期7 NN故障处理8 Hadoop的限额与归档以及集群安全模式8.1 HDFS文件限额配置8.2 H原创 2021-01-25 15:29:15 · 333 阅读 · 0 评论 -
大数据学习_HDFS_Shell命令大全
[root@linux121 hadoop-2.9.2]# bin/hdfs dfsUsage: hadoop fs [generic options][-appendToFile … ][-cat [-ignoreCrc] …][-checksum …][-chgrp [-R] GROUP PATH…][-chmod [-R] <MODE[,MODE]… | OCTALMODE> PATH…][-chown [-R] [OWNER][:[GROUP]] PATH…][-c原创 2021-01-25 11:23:33 · 117 阅读 · 2 评论 -
大数据学习_Hadoop
1 Hadoop简介1.1 Hadoop是什么?Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是一个适合大数据的分布式存储和计算平台。主要解决:海量数据的存储和海量数据的分析计算问题。狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态圈,包括很多其他软件框架。1.2 Hadoop发行版本Apache Hadoop 原始版本(最原始的版本,适合入门学习)官网地址:http://hadoop.apache.org/优点:拥有全世界的开源贡献原创 2021-01-25 10:50:50 · 93 阅读 · 0 评论