- 博客(7)
- 资源 (5)
- 收藏
- 关注
原创 HBase 简介、架构、工作原理深析——(二)
**HBase的工作流程** 1. 读操作流程 a. Client先访问zookeeper,从meta表读取region的位置,然后读取meta表中的数据。meta中又存储了用户表的region信息。 b. 根据namespace、表名和rowkey在meta表中找到对应的region信息 c. 找到这个region对应的regionserver d. 查找
2017-09-26 10:13:31 268
原创 HBase 简介、架构、工作原理深析——(一)
一、 简介HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。尽管已经有许多数据存储和访问的策略和实现方法,但事实上大多数解决方案,特别是一些关系类型的,在构建时并没有考虑超大规模和分布式的特点。许多商家通过复制和分区的方法来扩充数据库使其突破单个节点的界限,但这些功能通常都是事后增加的,安装和维护都和复杂。同时,也会影响RD
2017-09-25 15:36:28 766
原创 NoSql
什么是nosql?NoSQL一词最早出现于1998年,是Carlo Strozzi开发的一个轻量、开源、不提供SQL功能的关系数据库。2009年,Last.fm的Johan Oskarsson发起了一次关于分布式开源数据库的讨论[2],来自Rackspace的Eric Evans再次提出了NoSQL的概念,这时的NoSQL主要指非关系型、分布式、不提供ACID的数据库设计模式。因此,对NoSQL最普
2017-09-25 11:16:53 809
原创 java中的线程安全
java中的线程安全: 即线程同步 ,就是当一个程序对一个线程安全的方法或者语句进行访问的时候,其他的不能再对他进行操作了,必须等到这次访问结束以后才能对这个线程安全的方法进行访问什么叫线程安全:如果你的代码所在的进程中有多个线程在同时运行,而这些线程可能会同时运行这段代码。如果每次运行结果和单线程运行的结果是一样的,而且其他的变量的值也和预期的是一样的,就是线程安全的。 或者说:一个类或者程序所
2017-09-22 17:55:32 295
原创 Hive
一、 什么是hive? Apache Hive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理,它本身是建立在Apache Hadoop之上,主要提供以下功能: (1)它提供了一系列的工具,可用来对数据进行提取/转化/加载(ETL); (2)是一种可以存储、查询和分析存储在HDFS(或者HBase)中的大规模数据的机制; (3)查询是通过MapReduce来完成的(并不是所有的查询
2017-09-22 15:39:27 280
原创 Flume
一、 什么是flume flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各种组件不断丰富,用户在开发的过程中使用的便利性得到很大的改善,现已成为apache top项目之一。 flume是分
2017-09-22 15:26:24 432
原创 storm入门简介、架构原理分析
一、 Storm简介 Storm是由Nathan Marz开发的,一个免费并开源的分布式实时计算系统。 Storm是基于数据流的实时处理系统,提供了大吞吐量的实时计算能力。通过数据入口获取每条到来的数据,在一条数据到达系统的时候,立即会在内存中进行相应的计算;Storm适合要求实时性较高的数据分析场景。 Storm 不处理静态数据,但它处理连续的流数据。二、 Storm的特点 Storm实
2017-09-12 14:58:26 1716
Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理_13236639.pdf
2017-10-20
面向对象软件构造(第二版)中英对照版
2017-10-16
代码大全英文版
2017-10-16
Hadoop技术内幕:深入解析YARN架构设计与实现原理.pdf
2017-10-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人