大数据
文章平均质量分 78
大漠穷秋_
不停于现状,不止于代码
展开
-
hadoop/hive/hbase 简单区别及应用场景
1、hadoop:它是一个分布式计算+分布式文件系统,前者其实就是MapReduce,后者是HDFS。后者可以独立运行,前者可以选择性使用,也可以不使用2、hive:通俗的说是一个数据仓库,仓库中的数据是被hdfs管理的数据文件,它支持类似sql语句的功能,你可以通过该语句完成分布式环境下的计算功能,hive会把语句转换成MapReduce,然后交给hadoop执行。这里的计算,仅限于查找和分析,...转载 2018-05-12 21:58:08 · 8147 阅读 · 4 评论 -
入门级理解kafka 一篇文章就够了
Kafka的基本介绍Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是:日志收集系统和消息系统。Kafka主要设计目标如下:以时间复杂度为O(1)的方...转载 2018-04-28 17:26:20 · 1532 阅读 · 0 评论 -
行存储和列存储的区别及各自的应用场景
一、定义行式存储把一行中的数据值串在一起存储起来,然后再存储下一行的数据,以此类推列式存储把一列中的数据值串在一起存储起来,然后再存储下一列的数据,以此类推二、例子1数据库以行、列的二维表的形式表示数据,但是却以一维字符串的方式存储,举个例子上面的表包括 Empid,Lastname、Firstname,Salary 四个字段。数据库会把这个表存储在一系列的一维字节中,由操作系统将这一系列的字节写...转载 2018-05-27 21:16:08 · 7237 阅读 · 1 评论