数据仓库的概念
数据仓库的输入输出
输入:
1.1 日志采集系统
1.2 业务系统数据库
1.3 爬虫系统等
输出:
1.1.2 报表系统
1.1.3 用户画像
1.1.4 推荐系统
1.1.5 机器学习
1.1.6 风控系统
项目的技术选型
数据的采集传输: Flume Kafka Sqoop Logstash DataX
-
Flume:可同时做为数据的生产者和消费者,主要用来作为日志的采集工作
-
Kafka:作为一个可分布式消息订阅系统,底层使用Scala编写,可水平扩展消息发送与存储的吞吐量,避免的jvm内存与系统内存之间的频繁交换,使用零缓存技术从而加快了数据的读写,减少对象的创建与回收,常用于日志的批量收集与发送,主要用来作消息的分发和削峰填谷
-
Sqoop:作为Hadoop底层文件系统Hdfs与关系型数据库的传输管道,优点它几乎可以和任何大数据框架无缝集成,缺点是必须以Hadoop底层的 MapReduce 作为依赖才能运行
-
Logstash :数据收集引擎,作用类似于Kafka,相对于Kafka来说优点为Logstash 的内部有一个跨节点保护的机制,从而可以实现多节点同时输入输出数据,这就与Kafka形成了