![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
白茶清欢渡
这个作者很懒,什么都没留下…
展开
-
Hadoop--HDFS集群架构
Hadoop集群搭建服务器配置以及JDK的安装硬件准备(1)硬件准备服务器准备:VMware12/10/14CentOS6.8 下载网址:http://vault.centos.org/(2)网络环境准备:NAT方式:不需要做任何网络设置,只要宿主主机上网即可上网IP地址,子网掩码,网关,DNS(外网)LINUX系统环境准备:修改主机名: vim /etc/sysconfig/n...原创 2018-11-02 14:08:12 · 466 阅读 · 0 评论 -
Hive简介与搭建
1原创 2018-11-15 21:25:52 · 208 阅读 · 0 评论 -
Hive--DDL,DML基本操作
2原创 2018-11-15 21:26:21 · 257 阅读 · 0 评论 -
Hive的高级应用-视图-优化
3原创 2018-11-15 21:26:43 · 1242 阅读 · 0 评论 -
Hive的高级操作
Hive的Join操作1,语法结构join_table:table_reference JOIN table_factor [join_condition]| table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition| table_reference LEFT SEMI JOIN table_...原创 2018-11-18 22:07:33 · 639 阅读 · 0 评论 -
zookeeper
ZooKeeper概述什么是 ZooKeeper?zookeeper译名为“动物园管理员”。它是用来管理大象(Hadoop) 、蜜蜂(Hive) 、小猪(Pig) 的管理员, Apache HBase 和 Apache Solr 等项目中都用到了 ZooKeeper。ZooKeeper 是一个开源的分布式协调服务,就是为用户的分布式应用程序提供协调服务。ZooKeeper 功能(1)...原创 2018-11-14 18:58:01 · 425 阅读 · 0 评论 -
ZooKeeper 集群搭建和使用
ZooKeeper 集群搭建1,ZooKeeper 集群搭建须知节点数奇数台2,下载安装包下载地址:http://mirrors.hust.edu.cn/apache/zookeeper/版本号:zookeeper-3.4.10.tar.gz3,上传并解压解压:tar -zxvf zookeeper-3.4.10.tar.gz4,修改配置文件zoo.cfg进入 ...原创 2018-11-14 19:47:38 · 654 阅读 · 0 评论 -
ZooKeeper 原理解析
ZooKeeper 整体架构1,角色描述server.id=主机名:2888:3888:observer2,架构图(1)每个Server在内存中存储了一份数据;(2)ZooKeeper启动时,从中选举一个Leader(Paxos协议);(3)Leader负责处理数据更新等操作(Zab协议);(4)一个更新操作成功,当且仅当大多数Server在内存中成功修改数据。ZooK...原创 2018-11-14 20:18:14 · 230 阅读 · 0 评论 -
HBase简介和分布式集群的搭建
HBase1,HBase是什么?1,概念是一个高可靠性、高性能、可伸缩、分布式、基于列存储的非关系型(NoSQL)数据库。2,与Google Bigtable的不同之处文件存储系统海量数据计算框架应用程序协调服务Google Bigtable:GFSGoogle Bigtable:MapReduceGoogle Bigtable:ChubbyHBase...原创 2018-11-14 21:08:27 · 2578 阅读 · 0 评论 -
Flume的介绍与安装
flume简述Flume 是什么?Flume 是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume 是 Cloudera 提供的分布式日志采集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,Flume 提供对数据进行简单处理,并写到各种数据接收方(可定制,比如文本、HDFS、MySQL、HBase 等)。Flume 的核心概念Agent: 使...原创 2018-11-16 20:30:48 · 294 阅读 · 0 评论 -
Sqoop 原理剖析
Sqoop 数据导入原理Sqoop 导入原理图工作流程详解1,Sqoop 会通过 JDBC 来获取所需要的数据库元数据,例如:导入表的列名,数据类型等。2,这些数据库的数据类型(varchar、int 等)会被映射成 Java 的数据类型(String、int 等),根据这些信息, Sqoop 会生成一个与表名同名的类用来完成序列化工作,保存表中的每一行记录。3,Sqoop 启动 M...原创 2018-11-15 21:24:52 · 632 阅读 · 0 评论 -
Sqoop的数据处理方法
1,Sqoop 基本命令介绍1,帮助信息 sqoop help2,查看具体某个命令的使用方式 sqoop help command 例如:sqoop help import2,MySQL 数据准备1,开启 MySQL service mysql start-2 ,查看 MySQL 的数据Sqoop 数据导入MySQL 数据导入 HDFS1...原创 2018-11-15 21:19:42 · 1109 阅读 · 0 评论 -
HDFS在Linux中操作命令
HDFS简介1,HDFS概念:分布式文件系统(1)文件系统: 存储文件,目录树定位文件 hdfs://master:9000/soft/hadoop-2.6.5-centos-6.8.tar.gz(2)分布式: 服务器集群,各个服务器都有各自清晰的角色定位功能: 解决海量数据的存储问题2,设计思路(1)分而治之大文件切分成小文件,多台服务器共同管理一个文件小文件做备份,分散...原创 2018-11-18 20:53:35 · 9478 阅读 · 0 评论 -
HDFS的Java API 操作
HDFS的JavaAPI操作1.Windows 下 eclipse 远程连接 Hadoop 集群(1)下载 eclipse 开发工具,解压并安装。下载网址:https://www.eclipse.org/downloads/(2)下载Hadoop Eclipse 插件 hadoop-eclipse-plugin-2.6.5.jar,将其放入 eclipse 安装目录 plugins 文件夹...原创 2018-11-02 21:36:48 · 390 阅读 · 0 评论 -
HDFS,NameNode,DataNode,SecondaryNameNode的工作机制
HDFS工作机制概述HDFS写数据流程HDFS读数据流程写数据的具体流程图读数据的具体流程图NameNode工作机制NameNode元数据管理管理方式元数据的 CheckPoint 机制CheckPoint 机制流程图CheckPoint 触发配置CheckPoint 附带作用DataNode工作机制SecondaryNameNode...原创 2018-11-02 22:09:23 · 686 阅读 · 0 评论 -
MapReduce基础
MapReducemapreduce: 是一个分布式运算编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架核心功能: 自带默认组件,用户编写的业务逻辑代码,整合成一个完整的分布式运算程序,并发运行在Hadoop集群上为什么需要MapReduce海量数据单机处理,硬件资源受限,所以无法胜任(硬盘读写速度、CPU处理速度等)单机版阔成分布式版,增加程序复杂度和开发难度为...原创 2018-11-07 20:35:43 · 269 阅读 · 0 评论 -
MapReduce的序列化和分区
流量项目的统计案例MapReduce的序列化序列化:把结构化对象转化为字节流反序列化:把字节流转换回结构化对象Java序列化重量级序列化框架,一个对象被序列化后,会附带很多额外信息(各种校验信息、header、继承体系等),不便在网络中高效传输,所以,Hadoop自己开发了一套序列化机制(Writable)Hadoop序列化Java序列化java对象实现Seriali...原创 2018-11-07 21:12:52 · 1298 阅读 · 0 评论 -
MapReduce 原理解析-Shuffle
概述MapReduce 中, Map 阶段处理的数据如何传递给 Reduce 阶段,是 - MapReduce 框架中最关键的一个流程,这个流程就叫 ShuffleShuffle: 数据混洗 ——(核心机制:数据分区,排序,缓存)具体来说:就是将 MapTask 输出的处理结果数据,分发给 ReduceTask,并在分发的过程中,对数据按 key 进行了分区和排序。主要流程...原创 2018-11-07 23:05:53 · 174 阅读 · 0 评论 -
Storm的编程模式和架构
stormstorm是一个实时计算系统。适用于实时分析,在线机器学习,持续计算的流式计算系统。特点: 速度快,每秒每节点处理数据百万tuple级别的工作形式: topology无状态,集群状态和分布式环境形式在zk中保存确保每个消息至少被消费一次storm和hadoop的区别storm用于实时计算,hadoop用于离线计算storm 处理的数据保存在内存中,源...原创 2018-11-14 00:14:25 · 352 阅读 · 0 评论 -
HBase的表存储结构
命令DDLDML原创 2018-11-15 14:48:44 · 749 阅读 · 0 评论 -
HBase的命令行
HBase命令1,指导手册hbase2,HBase Shell的一些基本操作命令基本操作1, 进入 HBase 命令行界面 hbase shell #任意一台安装HBase的服务器节点- 2,查看帮助信息 hbase(main):001:0> help #获取所有命令的帮助信息 hbase(main):001:0> he...原创 2018-11-15 20:25:49 · 1724 阅读 · 0 评论 -
Sqoop的简介与安装
1,Sqoop概述1,概念Sqoop:SQL–to–Hadoop,本质还是一个命令行工具。Apache旗下一款“Hadoop 和关系数据库之间传送数据”的工具。2,功能导入数据: 将关系型数据库(MySQL、Oracle 等)数据导入到 Hadoop 的 HDFS、Hive、HBase 等数据存储系统中;导出数据:从 Hadoop 的文件系统中导出数据到关系数据库(MySQL、Or...原创 2018-11-15 20:30:22 · 134 阅读 · 0 评论 -
Azkaban的安装及应用简述
Azkaban简述1,什么是 Azkaban?Azkaban是 Linkedin(领英)公司推出的一个开源的批量工作流任务调度用于在一个工作流内以一个特定的顺序运行一组工作和流程。使用 Job 配置文件建立任务之间的依赖关系,并提供一个易于使用的 Web 用户界面维护和跟踪你的工作流。2,为什么需要工作流调度器?1,一个完整的数据分析系统通常都是由大量任务单元组成:Shell 脚...原创 2018-11-16 22:44:56 · 493 阅读 · 0 评论