- 博客(5)
- 收藏
- 关注
原创 Spark概述
Spark:基于内存的分布式的计算框架,是一个针对海量数据处理的非常快的通用的计算引擎(计算框架)。 特点: 先进架构 采用Scala语言编写,底层采用actormodel的akka作为通讯框架,代码十分简洁高效。基于DAG图执行引擎,减少多次计算中间结果写到HDFS的开销。建立在统一抽象的RDD之上,以基本一致的方式应对不同的大数据处理。 高效 基于cache机制来支持
2017-04-10 23:55:15 580
原创 HBase Shell 工具
HBase Shell 工具 基本命令 hbase(main):001:0> help help 'create_namespace' 查看命令的用法 namespace 创建 查看 描述 删除 create_namespace 'ns_name' list_namespace describ
2017-04-09 20:09:14 877
原创 HBase读写数据流程
hbase的系统表 hbase:namespace 存储了hbase中的所有namespace的信息 hbase:meta 存储了hbase中所有的region的信息,包括rowkey范围,region所在的regionserver的地址。 hbase:meta 在zookeeper中,进入zookeeper中
2017-04-09 18:27:35 450
原创 Hbase的架构设计和存储
Hbase概念:高可靠、高性能、面向列、可伸缩的分布式存储系统,可以存储海量数据并对海量数据进行检索。利用HBase 技术可在廉价PC 上搭建起大规模结构化存储集群。HBase使用HDFS 作为底层文件存储系统,在其上可以运行MapReduce 批量处理数据,使用ZooKeeper 作为协同服务组件。 HBase 的特性:HBase 还是一种非关系型数据库,即NoSQL 数据库。
2017-04-09 14:49:34 2239
原创 快速排序
最近找实习,发现快排挺吃香的,昨天阿里的面试官问了快排的思想和收敛条件,今天做另一家公司的笔试题也让写实现快速排序的函数,从思想到代码实现,还是得总结一下,只有真正理解了,才记的更牢,运用的更灵活。 在了解快速排序的思想和性能之前,先了解一下快排的基本实现过程。 1.从待排序的数据序列中任取一个数据作为分界值,所有比它小的元素都放在左边,所有比它大的元素都放在右边,这样就形成了两个子序
2017-04-08 23:24:17 183
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人