自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (13)
  • 收藏
  • 关注

原创 Azkaban

Azkaban一 概述1.1 什么是AzkabanAzkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的Dependencies 来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作...

2020-05-05 12:32:04 403

原创 Phoenix

第 1 章 Phoenix 简介1.1 Phoenix 定义Phoenix 最早是 saleforce 的一个开源项目,后来成为 Apache 的顶级项目。Phoenix 构建在 HBase 之上的开源 SQL 层. 能够让我们使用标准的 JDBC API 去建表, 插入数据和查询 HBase 中的数据, 从而可以避免使用 HBase 的客户端 API.在我们的应用和 H...

2020-05-05 12:16:58 310

原创 Sqoop

Sqoop第1章 Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle...)之间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一...

2020-05-05 12:05:27 357

原创 Flume

Flume第1章 Flume概述1.1 Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。1.2 Flume基础架构Flume组成架构如图1-1所示:图1-1 Flume组成架构下面我们来详细介绍一下Flume架构中的组件:1.2.1 Agent...

2020-05-05 11:52:38 499

原创 HBase

HBASE第 1 章NoSQL简介1.1 关系型数据库的查询瓶颈当用户表的数据达到几千万甚至几亿级别的时候,对单条数据的检索将花费数秒甚至达到分钟级别。实际情况更复杂,查询的操作速度将会受到以下两个因素的影响:①高并发的更新(插入、修改、删除)操作。大中型网站的并发操作一般能达到几十乃至几百并发,此时单条数据查询的延时将轻而易举地达到分钟级别。②多表关联后的复杂查询...

2020-05-04 12:33:56 214

原创 Hive

Hive第1章 Hive入门1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执...

2020-05-04 12:10:29 237

原创 Kafka

Kafka第1章 Kafka概述1.1 定义Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。1.2 消息队列1.2.1 传统消息队列的应用场景1.2.2 消息队列的两种模式(1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)消息生产者生产消息发送到Queue中,然后消息消费者从...

2020-05-04 11:17:07 501

原创 Zookeeper

Zookeeper一、Zookeeper概述1.1 概述分布式系统:分布式系统指由很多台计算机组成的一个整体!这个整体一致对外,并且处理同一请求!系统对内透明,对外不透明!内部的每台计算机,都可以相互通信,例如使用RPC/REST或者是WebService!客户端向一个分布式系统发送的一次请求到接受到响应,有可能会经历多台计算机!Zookeeper是一个开源的分布式的,为分布式应用...

2020-05-04 09:05:35 150

原创 Hadoop编译源码

Hadoop编译源码1 前期准备工作1. CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意:采用root角色编译,减少文件夹权限出现问题2. jar包准备(hadoop源码、JDK8、maven、ant 、protobuf)(1)hadoop-2.7.2-src.tar.gz(2)jdk-8u14...

2020-05-04 08:12:39 188

原创 hadoop集群搭建

测试

2020-05-04 07:59:02 127

gitlab使用433333333333333333

fdffffffffffffffffffff

2024-03-28

bigdata_study1.zip

bigdata

2021-12-20

大数据面试宝典.rar

大数据面试宝典.rar

2021-11-14

spark源码.mmap

spark源码.mmap

2021-07-27

spark优化-20210723.mmap

spark优化-20210723.mmap

2021-07-23

spark优化.mmap

spark优化.mmap

2021-07-22

spark20210719.mmap

spark20210719.mmap

2021-07-19

spark20210715.mmap

spark20210715.mmap

2021-07-15

spark.mmap笔记

spark.mmap笔记

2021-07-07

基于AWS的云上数仓构建课件.zip

基于AWS的云上数仓构建课件.zip

2021-02-21

hive教程资料.rar

hive教程资料.rar

2021-02-21

资料-Hadoop集成Kerberos安全技术

资料-Hadoop集成Kerberos安全技术

2021-02-21

2.资料-史上最全面的hadoop.rar

2.资料-史上最全面的hadoop.rar

2021-02-21

1_FSPT字典转换.txt

1_FSPT字典转换.txt

2020-12-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除