Hadoop
更新与hadoop相关的博文
不温卜火
大数据开发/数据采集/数据清洗/数据分析/数据可视化
关注我!共同学习!!!
展开
-
Phoenix快速入门系列(3) | 一文教你如何在Phoenix中创建 HBase 二级索引
此篇为大家带来的是一文教你如何在Phoenix中创建 HBase 二级索引。目录一. HBase 的二级索引二. 配置 HBase 支持 Phoenix 创建二级索引三. Phoenix 创建索引1. Phoenix 索引分类2. 创建索引总结一. HBase 的二级索引 在前面的学习中, 我们知道 HBase 只能通过 rowkey 进行搜索, 一般把 rowkey 称作一级索引. 在很长的一段时间里 HBase 就只支持一级索引. HBase 里面只有 rowkey 作为一级索引,原创 2020-06-30 13:37:55 · 5221 阅读 · 33 评论 -
Phoenix快速入门系列(2) | 一文教你如何使用Phoenix
此篇为大家带来的是一文教你如何使用Phoenix。目录一. Phoenix 表操作二. Phoenix 表映射1. Phoenix 表和 HBase 表的关系2 准备工作3. 视图映射4. 表映射5. 视图映射和表映射的对比与总结一. Phoenix 表操作 1. 显示所有表!tables# 或者!table 2 创建表CREATE TABLE IF NOT EXISTS us_population ( state CHAR(2) NOT NULL,原创 2020-06-29 09:23:48 · 6579 阅读 · 40 评论 -
Phoenix快速入门系列(1) | 一文带你了解Phoenix及安装过程(超详细!!!)
此篇为大家带来的是一文带你了解Phoenix及安装过程。安装所需压缩包,如有需要可自行下载链接:https://pan.baidu.com/s/1RO3xpyyexrDaLDb_LtGaMw提取码:gzi3目录一. Phoenix1. 定义2. 特点3. 架构4. 数据存储二. 安装详解一. Phoenix1. 定义 Phoenix 最早是 saleforce 的一个开源项目,后来成为 Apache 的顶级项目。 Phoenix 构建在 HBase 之上的开源 SQL 层.原创 2020-06-28 09:59:04 · 6325 阅读 · 38 评论 -
Azkaban快速入门系列(3) | 一文带你快速了解Azkaban的实战应用(建议收藏!!!)
此篇为一文带你快速了解Azkaban的实战应用。目录一. 实战前的准备二. 实战案例一:单一job案例三. 实战案例二:多job工作流案例四. 实战案例三:java操作任务五. 实战案例四:HDFS操作任务六. 实战案例五:mapreduce任务一. 实战前的准备 1. 在executor服务器目录下执行启动命令[bigdata@hadoop002 executor]$ bin/azkaban-executor-start.sh 2. 在azkaban web服务器目录下执行启动命原创 2020-06-17 09:09:42 · 6787 阅读 · 32 评论 -
Azkaban快速入门系列(2) | Azkaban安装部署
此篇为大家带来的是Azkaban安装部署。安装部署Azkaban所需要的文件博主已经亲自打包上传到百度云了,如有需要可以自行下载:链接:https://pan.baidu.com/s/1CKs8EqBLnJwvPuwCxkx5UA提取码:jh3j目录一. 安装前准备二. 安装Azkaban三. 生成密钥对和证书四. 时间同步配置五. 修改配置1. Web服务器配置2. 执行服务器配置六. 分别启动executor服务器和web服务器七. web查看一. 安装前准备 1. 将Azkab原创 2020-06-15 14:27:39 · 5247 阅读 · 27 评论 -
Azkaban快速入门系列(1) | Azkaban的简单介绍
此篇为大家带来的是Azkaban的简单介绍。目录一. 工作流调度器概述1. 为什么需要工作流调度系统2. 工作流调度实现方式3. 常见工作流调度系统4. 各种调度工具特性对比5. Azkaban与Oozie对比二. Azkaban1. 什么是azkaban2. Azkaban特点3. Azkaban的架构一. 工作流调度器概述1. 为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等各任务单元原创 2020-06-14 11:14:39 · 5384 阅读 · 29 评论 -
Oozie快速入门系列(2) | 一文带你快速了解Oozie的使用(超详细!!!)
此篇为大家带来的是Oozie的使用。目录一. Oozie调度shell脚本二. Oozie逻辑调度执行多个Job一. Oozie调度shell脚本 目标:使用Oozie调度Shell脚本 大体过程如下: 1. 创建工作目录[bigdata@hadoop002 oozie-4.0.0-cdh5.3.6]$ mkdir oozie-apps/[bigdata@hadoop002 oozie-apps]$ mkdir shell[bigdata@hadoop002 oozie-ap原创 2020-06-13 09:52:20 · 6306 阅读 · 22 评论 -
Oozie快速入门系列(1) | Oozie的简单介绍及部署
此篇为大家带来的是Oozie的简单介绍及部署。此部分所需jar包等博主已经打包上传到百度云如有需要,请自行下载链接:https://pan.baidu.com/s/1H3BvKEftWKitjDf2EhX44g提取码:96a7目录一. 什么是Oozie二. Oozie的功能模块介绍2.1 模块2.2 常用节点三. Oozie的部署3.1 部署Hadoop(CDH版本)1. 上传及解压缩2. 修改Hadoop配置3.一. 什么是Oozie Oozie英文翻译为:驯象人。一个基于工作流原创 2020-06-12 09:24:40 · 5604 阅读 · 35 评论 -
Sqoop快速入门系列(3) | Sqoop常用命令及参数解析(建议收藏!!!)
此篇为大家带来的是Sqoop常用命令及参数解析。目录一. 常用命令列举二. 公用参数1. 公用参数:数据库连接2. 公用参数:import3. 公用参数:export4. 公用参数:hive三. 命令&参数3.1 命令&参数:import1. 命令2. 参数3.2 命令&参数:export1. 命令2. 参数3.3 命令&参数:codegen1. 命令2. 参数3.4 命令&参数:create-hive-table1. 命令2. 参数3.5 命令&参数:原创 2020-06-11 09:23:31 · 4545 阅读 · 31 评论 -
Sqoop快速入门系列(2) | Sqoop数据导入与导出
此篇为大家带来的是Sqoop数据导入与导出。目录一. 导入数据1. RDBMS到HDFS2. RDBMS到Hive3. RDBMS到Hbase二. 导出数据HIVE/HDFS到RDBMS三. 脚本打包一. 导入数据 在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用import关键字。1. RDBMS到HDFS确定Mysql服务开启正常[bigdata@hadoop002 sqoop]$ mysql原创 2020-06-10 08:29:12 · 6279 阅读 · 34 评论 -
Sqoop快速入门系列(1) | Sqoop的简单介绍及安装解析
此篇为大家带来的是Sqoop的简单介绍及安装解析。所需文档等博主已经打包到百度云,如有需要请自行提取:链接:https://pan.baidu.com/s/1QVJMj1JHQR80UDfqOGrTYw提取码:pnxs目录1. Sqoop的简单介绍2. sqoop1与sqoop2架构对比3. Sqoop原理4. Sqoop的安装过程1. 上传并解压2. 修改配置文件3. 拷贝JDBC驱动4. 验证Sqoop5. 测试Sqoop是否能够成功连接数据库1. Sqoop的简单介绍 Sqoo原创 2020-06-09 10:49:03 · 5324 阅读 · 35 评论 -
HBase项目实战系列(1) | Weibo项目简易版(附全代码)
此篇为大家带来的是HBase项目实战系列(1) | 谷粒微博全过程。目录1. 需求分析2. 代码实现1 代码设计总览:2. 创建项目及添加依赖3. 创建命名空间以及表名的定义1. 需求分析1.微博内容的浏览,数据库表设计2.用户社交体现:关注用户,取关用户3.拉取关注的人的微博内容微博表的分析 1. 2. 项目所需要的表2. 代码实现1 代码设计总览:1.创建命名空间以及表名的定义2. 创建微博内容表3.创建用户关系表4.创建用户微博内容接收邮件表5.发布微博原创 2020-06-08 10:44:58 · 6991 阅读 · 39 评论 -
HBase快速入门系列(10) | HBase知识点总结(建议收藏!)
此篇为大家带来的是HBase知识点总结(建议收藏!)。目录1. 读写请求会集中到某一个RegionServer上 如何处理(数据倾斜)2. hbase查询一条记录的方法是什么?Hbase写入一条记录的方法是什么?3. 描述hbase的rowkey的设计原理4. hbase中compact的用途是什么,什么时候触发,分为哪两种,有什么区别。5. Hbase的原理 regionserver挂了 如何恢复数据 ?新的数据从Hlog里读出来是如何恢复的6. 讲一下Hbase,Hbase二级索引用过吗7. Hb原创 2020-06-07 09:24:21 · 5768 阅读 · 30 评论 -
HBase快速入门系列(9) | HBase优化
此篇为大家带来的是HBase优化。目录1. HBase HA(高可用)2. 预分区3. RowKey设计4. 内存优化5. 基础优化1. HBase HA(高可用) 在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。 1. 关闭HBase集群(如果没有开启则跳过此步)[bigdat原创 2020-06-06 08:34:29 · 4619 阅读 · 30 评论 -
HBase快速入门系列(8) | 一文教你HBase与Hive如何集成
此篇为大家带来的是HBase与Hive的集成。目录一. 两者对比1. Hive2. HBase二. HBase与Hive集成使用1. 编译jar包2. 环境准备3. 测试案例14. 测试案例2一. 两者对比1. Hive (1) 数据仓库 Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。 (2) 用于数据分析、清洗 Hive适用于离线的数据分析和清洗,延迟较高。 (3) 基于HDFS、MapReduce原创 2020-06-05 09:57:46 · 7615 阅读 · 29 评论 -
HBase快速入门系列(7) | 官方HBase-MapReduce与自定义
此篇为大家带来的是官方HBase-MapReduce与自定义。目录1. 官方HBase-MapReduce1.查看HBase的MapReduce任务的执行2. 环境变量的导入2. 自定义HBase-MapReduce13. 自定义HBase-MapReduce2 通过HBase的相关JavaAPI,我们可以实现伴随HBase操作的MapReduce过程,比如使用MapReduce将数据从本地文件系统导入到HBase的表中,比如我们从HBase中读取一些原始数据后使用MapReduce做数据分析。原创 2020-06-03 10:35:18 · 5699 阅读 · 32 评论 -
HBase快速入门系列(6) | Hbase简单的API操作
此篇为大家带来的是Hbase简单的API操作。目录1. 添加依赖2. HBaseAPI1. 添加依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>1.3.1</versi原创 2020-06-01 12:58:53 · 4683 阅读 · 32 评论 -
HBase快速入门系列(5) | Hbase原理
此篇为大家带来的是Hbase的数据结构。目录原创 2020-05-30 14:05:14 · 7963 阅读 · 35 评论 -
HBase快速入门系列(4) | 经此一文助你了解Hbase的数据结构
此篇为大家带来的是Hbase的数据结构。目录原创 2020-05-29 09:14:19 · 3955 阅读 · 37 评论 -
HBase快速入门系列(3) | Hbase的shell基本操作
此篇为大家带来的是Hbase的shell操作。目录1. 基本操作2. 表的基本操作1. 基本操作 1. 进入HBase客户端命令行[bigdata@hadoop002 hbase]$ bin/hbase shell 2. 查看帮助命令hbase(main):001:0> help 3. 查看当前数据库中有哪些表hbase(main):002:0> list2. 表的基本操作 1. 创建表hbase(main):003:0> crea原创 2020-05-27 11:41:58 · 5220 阅读 · 33 评论 -
HBase快速入门系列(2) | 一文带你安装Hbase(超级详细!!!)
> 大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—`不温不火`,本意是`希望自己性情温和`。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只有csdn这一个平台,博客主页:[https://blog.csdn.net/qq_16146103](https://blog.csdn.net/qq_16146原创 2020-05-26 11:40:31 · 5438 阅读 · 30 评论 -
HBase快速入门系列(1) | Hbase的简单介绍
> 大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—`不温不火`,本意是`希望自己性情温和`。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只有csdn这一个平台,博客主页:[https://blog.csdn.net/qq_16146103](https://blog.csdn.net/qq_16146原创 2020-05-26 10:21:42 · 6011 阅读 · 31 评论 -
Kafka快速入门系列(15) | Kafka知识点总结(建议收藏!)
本篇博主带来的是Kafka知识点总结。目录1.Kafka中的ISR、AR又代表什么?2.Kafka中的HW、LEO等分别代表什么?3.Kafka中是怎么体现消息顺序性的?4.Kafka中的分区器、序列化器、拦截器是否了解?它们之间的处理顺序是什么?5.Kafka生产者客户端的整体结构是什么样子的?使用了几个线程来处理?分别是什么?6.“消费组中的消费者个数如果超过topic的分区,那么就会有...原创 2020-05-25 09:08:34 · 5497 阅读 · 20 评论 -
Kafka快速入门系列(14) | Kafka监控(两种)
本篇博主带来的是Kafka的两种监控软件。目录一. Kafka Monitor二. Kafka Manager一. Kafka Monitor 1. 上传jar包KafkaOffsetMonitor-assembly-0.4.6.jar到集群 2.在/opt/module/下创建kafka-offset-console文件夹[bigdata@hadoop002 module]...原创 2020-05-25 09:08:05 · 4967 阅读 · 18 评论 -
Kafka快速入门系列(13) | Flume对接Kafka
本篇博主带来的是Flume对接Kafka。目录1. Kafka与Flume比较2. Flume与kafka集成1. Kafka与Flume比较在企业中必须要清楚流式数据采集框架flume和kafka的定位是什么: 1. flume:cloudera公司研发适合多个生产者;适合下游数据消费者不多的情况;适合数据安全性要求不高的操作;适合与Hadoop生态圈对接的操作。 2....原创 2020-05-24 09:37:28 · 5778 阅读 · 30 评论 -
Kafka快速入门系列(12) | Kafka Streams的简单介绍
本篇博主带来的是Kafka Streams的相关知识。目录1. 什么是Kafka Streams2. Kafka Streams特点3. 为什么要有Kafka Stream4. Kafka Stream数据清洗案例1. 需求2. 需求分析3. 案例实操1. 什么是Kafka Streams Kafka Streams。Apache Kafka开源项目的一个组成部分。是一个功能强大,易...原创 2020-05-23 09:02:41 · 6052 阅读 · 21 评论 -
Kafka快速入门系列(11) | Kafka中如何自定义Interceptor及其原理
本篇博主带来的是Kafka中如何自定义Interceptor及其原理。目录1. 拦截器(Interceptor)原理2. 自定义拦截器1. 需求2. 编写代码3. 运行结果1. 拦截器(Interceptor)原理 Producer拦截器(interceptor)是在Kafka 0.10版本被引入的,主要用于实现clients端的定制化控制逻辑。 对于producer而言,int...原创 2020-05-22 09:14:40 · 6678 阅读 · 31 评论 -
Kafka快速入门系列(10) | Kafka的Consumer API操作
本篇博主带来的是Kafka的Consumer API操作。目录1. 手动提交offset2. 自动提交offset Consumer消费数据时的可靠性是很容易保证的,因为数据在Kafka中是持久化的,故不用担心数据丢失问题。 由于consumer在消费过程中可能会出现断电宕机等故障,consumer恢复后,需要从故障前的位置的继续消费,所以consumer需要实时记录自己消费到了哪...原创 2020-05-21 08:46:50 · 6375 阅读 · 28 评论 -
Kafka快速入门系列(9) | Kafka的Producer API操作
本篇博主带来的是Kafka的Producer API操作。目录1. 消息发送流程2. 无回调参数的API3. 带回调函数的API4. 同步发送API / 只是比异步多了一个.get()1. 消息发送流程 Kafka的Producer发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main线程和Sender线程,以及一个线程共享变量——RecordAccumul...原创 2020-05-20 10:25:29 · 6353 阅读 · 20 评论 -
Kafka快速入门系列(8) | Kafka的消费过程分析
本篇博主带来的是producer(生产者)的数据可靠性保证。目录1. 高级API1.高级API优点2.高级API缺点1. 低级API1.低级 API 优点2.低级API缺点3. 消费者组4. 消费方式5. 分区分配策略1. roundrobin2. range kafka提供了两套consumer API:高级Consumer API和低级Consumer API。1. 高级API...原创 2020-05-20 09:57:53 · 6306 阅读 · 22 评论 -
Kafka快速入门系列(7) | producer(生产者)的数据可靠性保证
本篇博主带来的是producer(生产者)的数据可靠性保证。目录1. 副本数据同步策略2. ISR3. ack应答机制4. 故障处理细节1. follower故障2. leader故障 为保证producer发送的数据,能可靠的发送到指定的topic,topic的每个partition收到producer发送的数据后,都需要向producer发送ack(acknowledgement确...原创 2020-05-19 09:01:39 · 6557 阅读 · 19 评论 -
Kafka快速入门系列(6) | Kafka生产过程的分析及分区策略
本篇博主带来的是Kafka生产过程的分析。目录1. 写入方式2. 分区(Partition)3. 副本(Replication)4. producer写入消息流程1. 写入方式 producer采用推(push)模式将消息发布到broker,每条消息都被追加(append)到分区(patition)中,属于顺序写磁盘(顺序写磁盘效率比随机写内存要高,保障kafka吞吐率)。2. 分...原创 2020-05-18 12:19:57 · 6551 阅读 · 22 评论 -
Kafka快速入门系列(5) | Kafka的工作流程及文件存储机制
本篇博主带来的是Kafka的工作流程及文件存储机制。目录一. Kafka的工作流程二. Kafka文件的存储机制一. Kafka的工作流程 1. Kafka开始部分 2. 创建topic 3.生产者往每一个partition-leader,其中所发数据为一批一批的发送(提高效率)follower为leader的备份,当leader挂掉的时候,follower替代挂掉的lea...原创 2020-05-18 09:14:03 · 6924 阅读 · 21 评论 -
Kafka快速入门系列(4) | 超好用的Kafka和zookeeper群起脚本(建议收藏!)
本篇博主带来的是Kafka和zookeeper群起脚本的创建与使用。目录一. Zookeeper1. 一键启动脚本2. 一键关闭脚本二. Kafka1. 启动2. 关闭 之前介绍过Kafka集群环境的搭建,但是细心的朋友们都发现,Kafka与ZooKeeper一样,都需要在每台节点上执行对应的开启/关闭脚本,十分的不方便。现在我们学习只用到了3台节点,如果以后到了企业,节点多了我们肯...原创 2020-05-17 08:20:20 · 7187 阅读 · 42 评论 -
Kafka快速入门系列(3) | Kafka常用脚本介绍及简单的shell操作
本篇博主带来的是Kafka常用脚本介绍及简单的shell操作。目录一. Kafka常用脚本二. 简单的shell操作一. Kafka常用脚本 至于怎样查看脚本,我们可以查看Kafka/bin目录,下图标记即为常用的脚本1.kafka-topics.sh:对topic进行增删改查2.kafka-server-start.sh:启动脚本3.kafka-server-stop.s...原创 2020-05-16 10:26:33 · 7904 阅读 · 44 评论 -
Kafka快速入门系列(2) | Kafka集群部署(超级简单!!!)
经过上篇的简单介绍,相信大家对Kafka有了初步的了解,本篇为博主带来的是Kafka的集群部署。需要的东西博主都已经打包上传到百度云了,如有需要的可以通过链接自取:链接:https://pan.baidu.com/s/1YtXgkt2430leNgCaNf2SLQ提取码:jnwl目录一. 环境准备1. 初始化环境准备二. Kafka集群部署一. 环境准备1. 初始化环境准备...原创 2020-05-16 08:53:59 · 7619 阅读 · 37 评论 -
Kafka快速入门系列(1) | Kafka的简单介绍(一文令你快速了解Kafka)
自Flume快速入门系列结束后,博主决定后面几篇博客为大家带来关于Kafka的知识分享作为快速入门Kafka系列的第一篇博客,本篇为大家带来的是Kafka的简单介绍。目录1. Kafka的定义2. 消息与消息队列2.1 传统消息队列的应用场景1. MQ传统应用场景之异步处理2. 流量消峰2.2 消息队列的两种模式1. 消息队列内部实现原理2 为什么需要消息队列3. 什么是Kafka4. Ka...原创 2020-05-15 10:29:28 · 7603 阅读 · 61 评论 -
Flume快速入门系列(11) | Flume知识点总结(持续更新)
这篇文章我们讲解的是Flume常见的面试题,并将会不断进行更新。目录1. 如何实现Flume数据传输的监控的2. Flume的Source,Sink,Channel的作用?你们Source是什么类型?3. Flume的Channel Selectors4. Flume参数调优5. Flume的事务机制6. Flume采集数据会丢失吗?1. 如何实现Flume数据传输的监控的 使用第三...原创 2020-05-15 08:50:52 · 7716 阅读 · 34 评论 -
Flume快速入门系列(10) | 如何自定义MySQLSource
这篇文章我们讲解的是如何自定义MySQLSource。目录1. 自定义Source说明2. 自定义MySQLSource组成3. 自定义MySQLSource步骤4. 代码实现5 测试1. jar包准备2. 配置文件准备3. mysql表准备4. 测试并查看结果1. 自定义Source说明 实时监控MySQL,从MySQL中获取数据传输到HDFS或者其他存储框架,所以此时需要我们自己...原创 2020-05-14 13:10:34 · 7638 阅读 · 15 评论 -
Flume快速入门系列(9) | 如何自定义Sink
这篇文章我们讲解的是如何自定义Sink。目录1. 介绍2. 需求3. 编码4. 测试1. 介绍 Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。 Sink是完全事务性的。在从Channel批量删除数据之前,每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flu...原创 2020-05-14 11:05:37 · 7860 阅读 · 8 评论