![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
大数据开发生态框架之一
菜鸟周星星
大数据开发攻城狮。更多学习和面试资料尽在微信公众号:Hadoop大数据开发
展开
-
JAVA连接HBase客户端及HBase写入数据和读取数据原理解析
JAVA连接HBase客户端接着上篇文章进行代码的实践,从JAVA 客户端对 HBase的客户端进行一系列操作工具类:HbaseUtil静态代码块一次性创建连接对象 并赋值返回连接对象 ConnectionTable对象的创建Admin对象的创建数据的展示package cn._doit19.hbase.utils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hba.原创 2020-11-26 15:52:22 · 1786 阅读 · 0 评论 -
HBase的基础概念及shell端命令和java api操作客户端
HBase概述Hbase简述Hbase是一个高可靠性的、可性能的(查询快,通过key取数据块,算法,索引,缓存),面向列的可伸缩性的分布式数据库系统。HBase特点1.可存储海量数据 -------借助HDFS2.高扩展性-------存储能力、运算能力 使用廉价机器的横向扩展3.分布式 数据库系统 解决高并发访问的问题4.列式存储数据: 在物理存储上,hbase的数据是按照列族分开存储的K V对的字节数组,在对应的hdfs中,一张表对应一个文件夹,在对应的hd...原创 2020-11-24 23:39:03 · 256 阅读 · 0 评论 -
Zookeeper之HDFS-HA高可用及Zookeeper的配置和安装
Zookeeper概述什么是ZookeeperZookeeper是一个底层的分布式协调服务工具!它是hadoop生态体系中很多分布式系统(HDFS、YARN(HA)、HBASE(ZK)、KAFKA.........)的基础组件基本的功能为客户提供写数据功能 存储关键状态数据 数据量小 为客户提供读数据功能 为用户提供数据变化时的监控功能 1) 节点的子节点个数 2) 节点的数据变化Zookeeper的功能其实很简单:就是提供协调服务!协调服务具体来说有三方...原创 2020-11-21 20:47:10 · 577 阅读 · 0 评论 -
在Linux将MapReduce程序提交给YARN执行
什么是YARN,有什么作用YARN(分布式运算资源调度系统)我们知道我们的分布式文件存储系统HDFS,是将文件进行切块(默认128M)、备份(3份)分布式的存储在集群的各个机器上的;海量的数据需要运算 ,那如果我们写的java程序,只运行在一个机器上进行处理这些数据块的话,明显是不可取的,所以我们得让程序分布式 并行的在各个机器上(mapreduce)运算;而这些程序运行具体使用哪一台的运算资源(CPU、内存、IO、网络等),使用多少,很显然,人为分配这些资源,是很难做到公平和合理的。原创 2020-11-20 21:19:43 · 479 阅读 · 0 评论 -
Hadoop之MapReduce工作流程细节图
更多学习、面试资料尽在微信公众号:Hadoop大数据开发原创 2020-11-19 22:59:30 · 182 阅读 · 0 评论 -
Hadoop从入门到入土(三)------------HDFS集群简单维护及JAVA客户端连接HDFS
原创 2020-11-19 14:30:46 · 309 阅读 · 2 评论 -
Hadoop从入门到入土(二)------------前言及Hadoop集群搭建
知识复习序列化和反序列化序列化:将java程序中的对象 写入持久化到 硬盘当中,转变为二进制的数据,这个过程称为序列化,也叫钝化。反序列化:而将硬盘中二进制的数据 读取到java程序中转化为对象,这个过程称为反序列化,也叫活化。应用场景:将内存中的对象数据持久化到硬盘当中;将硬盘中的数据 反序列化到内存当中;在网络中传输对象,都需要使用到序列化和反序列化。代码示例见上篇文章 序列化与反序列化优化jdk序列化数据冗余问题jdk自带的序列化数据,往往会自带一些其他冗余的...原创 2020-11-18 22:32:00 · 156 阅读 · 0 评论 -
MapReduce程序之Join案例
MapReduce程序之Join案例案例现有数据文件 order.txt、 user.txt用户文件中存储用户数据 订单文件中存储订单数据1个用户可对应多条订单数据现要求将数据进行汇总,且以订单数据为基准,拼接完整数据order.txtuser.txt思路:两个文件中关联字段为uid,1个用户对应多条订单数据,以订单数据为准,即拿到订单数据的集合,循环它,拼接上用户数据输出即可思考:mapreduce程序设计reduce 最终需要输出:完...原创 2020-11-18 17:13:26 · 166 阅读 · 0 评论 -
MapReduce程序之Index串联案例
Index串联案例现有三个文件 a.html b.html c.html ,里面分别记录着单词,如下图所示,现需要计算出 每个单词在每个文件出现的次数,格式如下: Hello a.html-4 b.html-8 c.html-10a.htmlhello tomhello jim hello kittyhello roseb.htmlhello jerryhello jimhello kittyhello jack...原创 2020-11-17 21:30:48 · 230 阅读 · 0 评论 -
Hadoop从入门到入土(一)------------java知识复习+大数据开发简介
知识复习序列化和反序列化序列化:将java程序中的对象 写入持久化到 硬盘当中,转变为二进制的数据,这个过程称为序列化,也叫钝化。反序列化:而将硬盘中二进制的数据 读取到java程序中转化为对象,这个过程称为反序列化,也叫活化。应用场景:将内存中的对象数据持久化到硬盘当中;将硬盘中的数据 反序列化到内存当中;在网络中传输对象,都需要使用到序列化和反序列化。代码示例见上篇文章 序列化与反序列化优化jdk序列化数据冗余问题jdk自带的序列化数据,往往会自带一些其他冗余的...原创 2020-11-16 21:43:09 · 279 阅读 · 0 评论