大数据生态圈辅助工具
北山璎珞
私はこのjianghuが好き
展开
-
Apache Oozie实战
oozie安装好了之后,需要测试oozie的功能是否完整好使,官方已经给自带带了各种测试案例,可以通过官方提供的各种案例来学习oozie的使用,后续也可以把这些案例作为模板在企业实际中使用。先把官方提供的各种案例给解压出来:cd /export/servers/oozie4.1.0tar -zxvf oozie-examples.tar.gz创建统一的工作目录,便于集中管理oozie。...原创 2020-04-14 20:19:02 · 654 阅读 · 0 评论 -
Apache Oozie安装(附资源)
资源:安装包+ 依赖jar包等:链接:https://pan.baidu.com/s/1yT_vCRan2KyflcK06vrscA提取码:ybxo1. 修改hadoop相关配置1.1. 配置httpfs服务修改hadoop的配置文件 core-site.xml<property> <name>hadoop.proxyuser.root.hos...原创 2020-04-28 22:07:49 · 829 阅读 · 1 评论 -
Azkaban使用实战(附资料)
源码资料:链接:https://pan.baidu.com/s/1D5TVoozk9Wen4gkng6nZ5g提取码:wv6s1. shell command调度1.1 直接写命令创建job描述文件vi command.job#command.jobtype=command c...原创 2020-04-16 21:00:01 · 225 阅读 · 0 评论 -
Azkaban安装部署(附资源)
1. solo-server模式部署1.1. 节点规划原创 2020-04-11 17:52:39 · 616 阅读 · 0 评论 -
Flume负责均衡和容错(load-balance、failover)
负载均衡是用于解决一台机器(一个进程)无法解决所有请求而产生的一种算法。Load balancing Sink Processor能够实现load balance功能,如下图Agent1是一个路由节点,负责将Channel暂存的Event均衡到对应的多个Sink组件上,而每个Sink组件分别连接到一个独立的Agent上,示例配置,如下所示:具体配置内容:a1.sinkgroups = g1...原创 2020-04-13 19:36:46 · 302 阅读 · 0 评论 -
Flume简单案例的实现(完整)
案例一 :采集目录到HDFS采集需求:服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去根据需求,首先定义以下3大要素采集源,即source——监控文件目录 : spooldir下沉目标,即sink——HDFS文件系统 : hdfs sinksource和sink之间的传递通道——channel,可用file channel 也可以用内存c...原创 2020-04-16 20:59:09 · 1448 阅读 · 0 评论 -
sqoop数据迁移 - 安装介绍
一 简介sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等站在Apache立场看待数据流转问题,可以分为数据的导入导出:Import:数据导入。RDBMS----->Had...原创 2020-04-05 19:17:18 · 194 阅读 · 0 评论 -
大数据生态圈辅助工具(汇总)
工具: impala一 impala1.impala的介绍及与hive的关系2.Impala安装部署3.impala-shell命令参数4.impala sql语法5.Impala数据导入方式6.Impala的java开发二原创 2020-04-16 20:53:29 · 351 阅读 · 0 评论