Hadoop
文章平均质量分 96
take off now
Boost
展开
-
Sqoop 安装配置、指令介绍【导入、导出】
文章目录Sqoop 原理Sqoop 原理Sqoop 是传统关系型数据库服务器与 Hadoop 间进行数据同步的工具,其底层利用 MapReduce 并行计算模型以批量处理方式加快了数据传输速度,并且具有较好的容错性功能。如下是 Sqoop 工作流程图:通过客户端 CLI(命令行界面)方式或者 Java API 的方式调用 Sqoop 工具, Sqoop 可以将指令转换为对应的 MapReduce 作业(通常只涉及 Map 任务,每个 Map 任务从数据库中读取一片数据,这样多个 Map 任务实现原创 2021-03-28 10:54:43 · 1297 阅读 · 3 评论 -
Azkaban——工作流管理器 部署测试
文章目录Azkaban 部署1.下载 Azkaban 源文件2.Azkaban 源文件编译Azkaban 部署1.下载 Azkaban 源文件azkanban3.50.0 源码包下载地址(github)2.Azkaban 源文件编译将下载后的 Azkaban 源文件压缩打包 azkaban-3.50.0.tar.gz 上传至 master 主机上,并且解压到指定目录:tar -zxvf azkaban-3.50.0.tar.gz /usr/azkaban执行上述命令后,进入解压后的 a原创 2021-03-16 11:19:45 · 603 阅读 · 0 评论 -
Flume框架讲解、应用案例——日志采集
文章目录Flume基础架构Agent(JVM进程)Source(数据采集器)Channel(缓冲通道)Sink(接收器)Event(事件)Flume基础架构Flume基础架构图(简单结构):Agent(JVM进程)Agent是一个JVM进程,它以事件的形式将数据从源头送至目的地。Agent主要有3个核心组件组成:Source、Channel、SinkSource(数据采集器)用于源数据的采集,然后将采集到的数据写入到Channel中并且流向Sink。Source是负责接收数据到Agen原创 2021-03-03 11:51:21 · 4212 阅读 · 3 评论 -
构建数据仓库Hive(基于centos7系统)
文章目录简介1、slave2上安装mysql server(1)安装 EPEL 源(2)安装 MySQL server 包,下载源安装包(3)安装源(4)启动服务,重载所有修改过的配置文件(5)获取mysql初始密码(6)MySQL 密码安全策略(7)设置远程登录2、slave1 上安装 hive(1)创建工作路径,并将 hive 解压(2)修改/etc/profile 文件设置 hive 环境变量(master 和 slave1 都执行)(3)服务端和 Mysql 通信(4)回到 slave1,cd co原创 2021-02-04 18:29:06 · 482 阅读 · 0 评论 -
HDFS的Java Api操作【获取Hdfs文件系统、遍历、创建文件和文件夹、上传、下载、权限访问控制、合并上传或下载】
HDFS写文件过程分析1.使用url方式访问数据(了解) @Test public void urlHdfs() throws IOException { //1:注册url URL.setURLStreamHandlerFactory( new FsUrlStreamHandlerFactory()); //2:获取hdfs文件的输入流 InputStream inputStream = new URL("hdfs://n原创 2020-12-04 14:01:32 · 5074 阅读 · 0 评论