大数据
MrTreeson
这个作者很懒,什么都没留下…
展开
-
大数据之HBase总结(上)
什么是HBaseHBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBas...原创 2018-11-06 17:25:10 · 765 阅读 · 0 评论 -
大数据之Hive总结(上)
什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系...原创 2018-11-10 10:46:04 · 1280 阅读 · 0 评论 -
大数据之HBase总结(下)
HBase的数据读写过程前一篇提到zookeeper记录着HBase集群的一些元信息,而在上面这两张图中可以看出,不管是写数据的过程还是读数据的过程,都需要通过zookeeper来完成。此外,需要注意的是,HBase存储引擎是基于LSM树实现。在HBase的官方文档中,有这样一段话:The hbase:meta table (previously called .META.) keep...原创 2018-11-08 00:45:19 · 672 阅读 · 0 评论 -
大数据之Hive总结(下)
本文篇幅略大,主要包括Hive的查询、自定义函数和Hive的优化总结。Hive的查询(HQL)注意:HQL是SQL的一个子集,可以满足基本的SQL语句使用,但是有些SQL不能使用,比如非相等的join连接等。Hive暂时也不支持物化视图。数据源创建部门表create table dept(deptno int,dname string,loc string)row format ...原创 2018-11-14 01:23:19 · 397 阅读 · 0 评论