通过Flume实现网站流量日志数据采集

最新推荐文章于 2024-07-23 10:48:19 发布

m0_58540923

最新推荐文章于 2024-07-23 10:48:19 发布

阅读量798

点赞数

文章标签： flume 大数据 hadoop 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58540923/article/details/132066944

版权

【实验内容】

通过Flume实现网站流量日志数据采集，我们令Source为taildir类型，搭配Channel的memory类型，Sink的hdfs类型进行Flume配置实验。

【实验目的】

1.了解Flume的多种Source、Channel、Sink组合配置，实现多种需求

2.了解Flume的执行原理以及流程

【实验技术/工具清单】

为了保证能顺畅地运行Hadoop集群，并能够进行基本的大数据开发调试，建议个人计算机硬件的最低配置为：内存至少8GB，硬盘可用容量至少100GB，CPU为Intel i5以上的多核（建议八核及以上）处理器。Hadoop相关软件安装包及其版本说明，Flume 1.9.0。

【实验原理/思路】

Flume的Agent主要是由三个重要的组件组成：分别为Source、Channel、Sink。

（1）Source：完成对日志数据的收集，分成transtion和event导入到Channel之中。

（2）Channel：主要提供一个队列的功能，对Source提供的数据进行简单的缓存。

（3）Sink：取出Channel中的数据，相应的存储到文件系统，数据库，或者提交到远程服务器。

Source、Channel、Sink的组合形式举例：

Source的类型主要有：Exec、Avro、Netcat、Spooldir、 Http 、Syslogtcp 、Seq、Thrift等。

Channel的类型主要有File、 Memory 、JDBC等。

Sink的类型主要有：Null、HDFS、 HBase、 Hive、Thrift、 Avro、Logger等。

【实验步骤】

1. Flume安装配置

2. 配置Flume日志采集组件

3. 创建配置目录，上传配置文件

4. 启动flume

5．查看日志是否正确采集到hdfs指定目录中

【实验记录与结果分析】

实现步骤和执行结果截图。

Flume安装配置

配置flume环境变量:

vi ~/.bash_profile

flume基础配置

flume-ng version

2.配置Flume日志采集组件

3.创建配置目录，上传配置文件

mkdir /opt/flume/conf/logs

将日志文件access.log保存到logs目录下

4. 启动flume

5.查看日志是否正确采集到hdfs指定目录中

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
通过Flume实现网站流量日志数据采集

为了保证能顺畅地运行Hadoop集群，并能够进行基本的大数据开发调试，建议个人计算机硬件的最低配置为：内存至少8GB，硬盘可用容量至少100GB，CPU为Intel i5以上的多核（建议八核及以上）处理器。通过Flume实现网站流量日志数据采集，我们令Source为taildir类型，搭配Channel的memory类型，Sink的hdfs类型进行Flume配置实验。中的数据，相应的存储到文件系统，数据库，或者提交到远程服务器。2. 配置Flume日志采集组件。2.配置Flume日志采集组件。
复制链接

扫一扫

m0_58540923 CSDN认证博客专家 CSDN认证企业博客

码龄3年

36: 原创

7万+: 周排名

24万+: 总排名

4万+: 访问

: 等级

505: 积分

3127: 粉丝

117: 获赞

22: 评论

606: 收藏

私信

关注

热门文章

最新评论

MapReduce对环境大数据进行统计分析
2301_78418533: 求个源代码
中国城市人口数据分析
叽里咕噜.956: 我也是
某地区房地产数据可视化分析
m0_74874266: # 假设 arr_0 包含交易年份，arr_1 包含对应的交易数量 arr_0 = hou['arr_0'] arr_1 = hou['arr_1'] # 获取交易年份数据 years = [year[0] for year in arr_1] # 创建 DataFrame df = pd.DataFrame({'years': years}) # 统计每个年份的交易数量 year_counts = df['years'].value_counts() # 创建饼图 plt.figure(figsize=(6, 6)) plt.pie(year_counts, labels=year_counts.index, autopct='%.2f%%', colors=sns.color_palette('pastel')) plt.title("Distribution of years") plt.show()
使用Pandas对某医院中风患者数据进行预处理
Heart816: why
使用Pandas对某医院中风患者数据进行预处理
Heart816: 1.（5）查看数据是否合并成功。没看到非常有帮助

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。