NOSQL
文章平均质量分 75
Zhu_Julian
这个作者很懒,什么都没留下…
展开
-
[Hadoop] 使用Apache Ambari管理Hadoop
随着Hadoop越来越普及,对合适的管理平台的需求成为当前亟待解决的问题。已经有几个商业性的Hadoop管理平台,如Cloudera Enterprise Manager,但Apache Ambari是第一个开源实现。Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapRedu转载 2013-05-21 02:06:17 · 2788 阅读 · 0 评论 -
[Hadoop] 如何为你的企业选择正确的Hadoop版本
由于Hadoop还处于初期高速发展的节点,加上它又是开源的,因此它的版本一直很混乱,Hadoop一些主要的特性有:Append:支持文件追加功能,如果想使用HBase,需要这个特性。RAID : 在保证数据可靠的前提下,通过引入校验码减少数据块数目。详细链接:https://issues.apache.org/jira/browse/HDFS/component/12313080原创 2014-06-26 22:47:51 · 1925 阅读 · 2 评论 -
[Hadoop] 完全分布式集群安装过程详解
1. 用Vmware Workstation创建4个虚拟机,每个虚拟机都装上Centos(版本:CentOS-6.3-x86_64),示意图如下:2. 在所有结点上修改/etc/hosts,使彼此之间都能够用机器名解析IP192.168.231.131 node01192.168.231.132 node02192.168.231.133原创 2013-05-09 19:31:48 · 1680 阅读 · 0 评论 -
[NOSQL] Memcache入门
Memcache是临时性键值存储NoSQL数据库,过去被大量使用在互联网网站中,作为应用和数据库之间的缓存层(现已打都被Redis取代),它是由Danga Interactive公司开发,最初为了加速LiveJournal 访问速度而开发,后来成为广泛应用的开源项目,官网: http://memcached.org/Memcache的特点全内存运转哈希方式存储简单文本协议进原创 2014-04-28 13:51:07 · 1491 阅读 · 0 评论 -
[Hadoop] 实际应用场景之 - 百度
百度在2008年就开始使用Hadoop作为其离线数据分析平台,从Hadoop v0.18/0.19开始,300台机器,2个集群,现在的规模为2W台节点以上,最大集群接近4,000节点,每日处理数据20PB+,每日作业数120,000+Hadoop在百度主要用于如下场景:日志的存储和统计;网页数据的分析和挖掘;商业分析,如用户的行为和广告关注度等;在线数据的反馈,及时得到原创 2013-06-22 18:59:07 · 5486 阅读 · 2 评论 -
[Hadoop] 实际应用场景之 - 阿里
Hadoop在淘宝和支付宝的应用从09年开始,用于对海量数据的离线处理,例如对日志的分析,也涉及内容部分,结构化数据等。使用Hadoop主要基于可扩展性的考虑,规模从当初的3-4百节点增长到今天单一集群3000节点以上,2-3个集群,支付宝的集群规模也达700台,使用Hbase,个人消费记录,key-value型。阿里对Hadoop的源码做了如下修改:改进Namenode单点问题原创 2013-06-22 17:16:02 · 6595 阅读 · 1 评论 -
[HBase] LSM树 VS B+树
LSM树是HBase里非常有创意的一种数据结构,它和传统的B+树不太一样,下面先说说B+树。1 B+树相信大家对B+树已经非常的熟悉,比如Oracle的普通索引就是采用B+树的方式,下面是一个B+树的例子:根节点和枝节点很简单,分别记录每个叶子节点的最小值,并用一个指针指向叶子节点。叶子节点里每个键值都指向真正的数据块(如Oracle里的RowID),每个叶子节点都原创 2013-05-08 09:42:44 · 28467 阅读 · 4 评论 -
[Hadoop] 创建Hadoop Eclipse插件
需要下载以下安装文件:jdk-6u30-windows-i586.exeapache-ant-1.9.1-bin.zipeclipse-jee-indigo-SR2-win32.ziphadoop-1.0.4.tar.gz1、安装jdk配置JAVA_HOME,并将%JAVA_HOME%\bin添加到Path变量2、解压apache-ant-1.9.1-bin.zip至某原创 2013-05-26 15:25:00 · 3108 阅读 · 1 评论 -
[Hive] 完全分布式安装过程(MetaStore: MySQL)
Hadoop版本:0.20.2Hive版本:0.9.0mysql版本: 5.6.111) 在mysql里创建hive用户,并赋予其足够权限[root@node01 mysql]# mysql -u root -pEnter password:mysql> create user 'hive' identified by 'hive';Quer原创 2013-05-09 19:44:19 · 2841 阅读 · 0 评论 -
[HBase] 体系架构(物理模型)
Client--包含访问HBase的接口并维护cache,加快对HBase的访问Zookeeper–保证任何时候,集群中只有一个master–存贮所有Region的寻址入口。–实时监控Region server的上线和下线信息。并实时通知给Master–存储HBase的schema和table元数据Master–为Region serve原创 2013-05-08 22:09:24 · 5422 阅读 · 0 评论 -
[HBase] 数据模型(逻辑结构)
HBase以表的形式存储数据。表由行和列族组成。列划分为若干个列族(row family),其逻辑视图如下:下面分别说说几个关键概念:1)行键(RowKey)-- 行键是字节数组, 任何字符串都可以作为行键;-- 表中的行根据行键进行排序,数据按照Row key的字节序(byte order)排序存储;-- 所有对表的访问都要通过行键 (单个RowKey原创 2013-05-09 10:46:03 · 3967 阅读 · 0 评论 -
[HBase] 完全分布式安装过程详解
HBase版本:0.90.5Hadoop版本:0.20.2OS版本:CentOS安装方式:完全分布式(1个master,3个regionserver)1)解压缩HBase安装文件 [hadoop@node01 ~]$ tar -zxvf hbase-0.90.5.tar.gz解压缩成功后的HBase主目录结构如下:[hadoop@node01 hbase-0.90.原创 2013-05-09 19:35:00 · 2264 阅读 · 0 评论 -
[Hadoop] Sqoop安装过程详解
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop官方版本:http://apache.dataguru.cn/sqoop/1.4.2/Sqoop CDH版本:http://archive.c原创 2013-05-09 21:17:58 · 4025 阅读 · 0 评论 -
[Hadoop] MapReduce架构设计
上一篇介绍了HDFS的架构设计(http://blog.csdn.net/u010415792/article/details/9055569),本篇是它的姊妹篇,介绍MapReduce的架构设计。和HDFS一样,MapReduce也是采用Master/Slave的架构,其架构图如下:它主要有以下4个部分组成:1)Client2)JobTrackerJobTra原创 2013-06-08 15:20:23 · 5351 阅读 · 0 评论 -
[Hadoop] HDFS架构设计
HDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上,它具有以下几个特点:1)适合存储非常大的文件2)适合流式数据读取,即适合“只写一次,读多次”的数据处理模式3)适合部署在廉价的机器上但HDFS不适合以下场景(任何东西都要分两面看,只有适合自己业务的技术才是真正的好技术):1)不适合存储大量的小文件,因为受Namenode内存大小限制2)不适合实时数据读取原创 2013-06-08 14:24:51 · 4091 阅读 · 1 评论 -
[Hadoop] Cloudera Impala:基于Hadoop的实时查询开源项目
CSDN报道 文/刘江 正在纽约进行的大数据技术会议Strata Conference + Hadoop World传来消息,Cloudera发布了实时查询开源项目Impala 1.0 beta版,称比原来基于MapReduce的Hive SQL查询速度提升3~90倍(详情可以参考此文中的“How much faster are Impala queries than Hive ones转载 2013-05-27 15:26:10 · 1837 阅读 · 0 评论 -
[NOSQL] Redis介绍
Redis是Salvatore Sanfilippo在2009年为其初创公司LLOOGG开发的,目前仍是独立项目,但VMWare赞劣了项目(作者是其雇员)。它采用C原创 2014-06-17 19:05:10 · 2425 阅读 · 0 评论