一、网站日志流量项目
-》项目开发阶段:
-》可行性分析
-》需求分析
-》详细设计
-》代码实现
-》测试
-》上线
-》大数据业务流程
-》数据采集:sqoop、Flume、kafka、Logstash
-》数据源:日志文件、RDBMS、实时的数据流
-》目标地:hdfs、nosql、Hive
-》数据存储:入库的过程
-》数据计算:hive、MapReduce、spark
-》数据清洗
-》数据建模
-》数据分析
-》数据展示:java web、可视化分析工具
二、Flume的使用
-》特点
collecting, aggregating, and moving
收集 聚集 移动
source、 channel、 sink
-》flume原理
-》source:负责读数据源,将数据源的数据变成数据流,封装成event
event是数据采集的最小单元,
head:放一些配置信息key=value格式
body:真正的数据
-》channel:负责临时存储数据
-》sink:负责将数据发送到目标地
三、Flume的部署
-》下载解压
tar -zxvf flume-ng-1.6.0-cdh5.7.6.tar.gz -C /opt/cdh-5.7.6/
-》修改配置文件
mv conf/flume-env.sh.template conf/flume-env.sh