实验五其他工具实践

洛水鱼

已于 2023-06-08 10:57:51 修改

阅读量246

点赞数

文章标签： hadoop 大数据 hive

于 2023-06-08 10:48:43 首次发布

原文链接：https://blog.csdn.net/weixin_39635634?type=blog

版权

来自博主卷毛迷你猪的授权，来自我们老师PPT，我只是写自己的操作过程

实验目的

Flume
Flume是apache的一个顶级项目，是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。
本实验实现Avro Source + Memory Channel + Logger Sink的组合。使用apache-flume-1.8.0自带的例子：
• 使用Avro Source接收外部数据源
• Logger作为sink
• 通过Avro RPC调用，将数据缓存在channel中，然后通过Logger打印出调用发送的数据

Sqoop
Sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。
核心的功能有两个：
• 数据的导入、迁入，例如：MySQL，Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统
• 数据的导出、迁出：从 Hadoop 的文件系统中导出数据到关系数据库 MySQL
Sqoop 的本质还是一个命令行工具，和 HDFS，Hive 相比，并没有什么高深的理论。
Sqoop和Hive的区别：
• Sqoop：本质就是迁移数据，迁移的方式是把迁移命令转换成MR程序
• Hive：本质就是执行计算，依赖于HDFS存储数据，把HiveQL转换成MR程序
3.实验准备
完成实验四，已经搭建好Hive环境

【实验项目】

【参考链接】https://blog.csdn.net/qq_42881421/article/details/84782509（梁老师博客）
配置截图在这里插入图片描述

【具体操作】

进入有权限的目录，并创建配置文件avro.conf（名字自取）
启动Flume agent，例如：
flume-ng agent --conf ./ --conf-file avro.conf --name a1 Dflume.root.logger=INFO,console
注意：（1）标红处的路径和配置文件名字，有需要请更变为自己的；
（2）agent 的代号此处配置为a1，有需要请更变为自己的；
（3）其他配置可以参考白皮书，请先弄懂命令再下手。
打开新的终端(重要)，并创建新文件夹，例如testFlume
向新文件夹下写入一个log文件，例如： echo “hello world” > ~/testFlume/log.00
使用avro-client发送文件，例如：flume-ng avro-client -c ./ -H 0.0.0.0 -p 4141 -F testFlume/log.00
注意：-c为conf所在目录，-H为主机， -p为端口号 -F为要发送文件所在的路径
在监听终端（启动Flume agent命令的终端）看到监听日志文件的内容。
结果图像