大数据技术选型

数据仓库的概念

数据仓库的输入输出

输入:

1.1 日志采集系统

1.2 业务系统数据库

1.3 爬虫系统等

输出:

1.1.2 报表系统

1.1.3 用户画像

1.1.4 推荐系统

1.1.5 机器学习

1.1.6 风控系统

项目的技术选型

数据的采集传输: Flume Kafka Sqoop Logstash DataX

  • Flume:可同时做为数据的生产者和消费者,主要用来作为日志的采集工作
  • Kafka:作为一个可分布式消息订阅系统,底层使用Scala编写,可水平扩展消息发送与存储的吞吐量,避免的jvm内存与系统内存之间的频繁交换,使用零缓存技术从而加快了数据的读写,减少对象的创建与回收,常用于日志的批量收集与发送,主要用来作消息的分发和削峰填谷
  • Sqoop:作为Hadoop底层文件系统Hdfs与关系型数据库的传输管道,优点它几乎可以和任何大数据框架无缝集成,缺点是必须以Hadoop底层的 MapReduce 作为依赖才能运行
  • Logstash :数据收集引擎,作用类似于Kafka,相对于Kafka来说优点为Logstash 的内部有一个跨节点保护的机制,从而可以实现多节点同时输入输出数据,这就与Kafka形成了
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值