- 博客(4)
- 资源 (9)
- 收藏
- 关注
原创 大数据技术板块划分
大数据技术板块划分数据采集flume kafka logstash filebeat ...数据存储mysql redis hbase hdfs ...虽然mysql不属于大数据范畴 但是我在这也列出来了,因为你在工作中离不开它数据查询hive impala elasticsearch kylin ...数据计算实时计算storm sparkstreaming flink ...离线计算hadoo...
2018-04-08 08:52:12 1527
原创 Hadoop家族简介
Apache Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。Apache Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Apac...
2018-04-08 08:35:26 223
转载 Kafka学习整理二(定义、特点、应用场景)
Kafka是什么Kafka最先由LinkedIn公司开发,之后成为Apache的顶级项目。Kafka是一个分布式的、分区化、可复制提交的日志服务LinkedIn使用Kafka实现了公司不同应用程序之间的松耦和,那么作为一个可扩展、高可靠的消息系统Kafaka的特点Kafaka是分布式的,其所有的构件borker(服务端集群)、producer(消息生产)、consumer(消息消费者)都可以是分布...
2018-03-12 16:14:54 150
转载 Kafka学习之一 Kafka是什么,主要应用在什么场景?
1、kafka是什么? Kafka是由LinkedIn开发的一个分布式基于发布/订阅的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。2、产生背景 Kafka是一个消息系统,用作LinkedIn的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础。活动流数据是几乎所有站点在对其网站使用情况做报表时都要用到的数据中最常规的部分。活动数...
2018-03-12 15:55:52 816
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人