对于大数据所包含的概念,相信很多人都无法忽略flume,但对于这个大数据中的必不可少的项目,你了解多少呢?关于flume中的概念和特点你知道多少呢?
首先:我们先来了解flume的概念
flume是分布式的日志收集系统,把收集来的数据传送到目的地去。flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。而agent里面包含3个核心组件:source、channel、sink。这些组成部分的集合就组成了完整的flume概念。
其次:flume的功能
Flume的出现还是让数据处理更加的便捷,所以flume的功能就体现在其支持在日志系统中定制各类数据发送方,用于收集数据,另外,Flume 提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。这两大功能,决定了flume有巨大的应用场景。
再次:我们来了解flume的特点(其特点可以分为5个)
1、Flume 可以高效率的将多个网站服务器中收集的日志信息存入 HDFS/HBase 中。
2、使用 Flume,我们可以将从多个服务器中获取的数据迅速的移交给 Hadoop 中。
3、支持各种接入资源数据的类型以及接出数据类型。
4、支持多路径流量,多管道接入流量,多管道接出流量,上下文路由等。
5、可以被水平扩展。
最后:flume的应用场景
比如我们在做一个电子商务网站,然后我们想从消费用户中访问点特定的节点区域来分析消费者的行为戒者购买意图。这样我们就可以更加快速的将他想要的推送到界面上,实现这一点,我们需要将获取到的她访问的页面以及点击的产品数据等日志数据信息收集幵移交给Hadoop平台上去分析。而Flume正是帮我们做到这一点。现在流行的内容推送,比如广告定点投放以及新闻私人定制也是基于次,丌过丌一定是使用FLume,毕竟优秀的产品很多,比如facebook的Scribe,还有Apache新出的另一个明星项目chukwa,还有淘宝Time Tunnel。
Flume作为大数据的一个重要组成部分,在世界500千企业中,乃至在很多小企业中都扮演着重要的角色,因此,无论是企业还是个人,对于flume的了解都应该成为一种必须。
随着大数据发展速度的不断加快,其影响力在不断的上升,相信在未来数据驱动一切的时代,各个行业对于大数据的应用必将越来越深刻,相信,关于大数据中的flume等概念一定会达到更多的重视和关注度。