hadoop
miketom155
这个作者很懒,什么都没留下…
展开
-
hadoop 增加回收功能处置!
在core-site.xml中增加如下配置,表明rm后会在trash中保留多少分钟:fs.trash.interval10080Number of minutes between trash checkpoints. If zero, the trash feature is disabledhadoop的这个默认值是0.所以需要设置。原创 2015-10-19 15:01:40 · 311 阅读 · 0 评论 -
storm spark 的选择区别
实时商务智能这一构想早已算不得什么新生事物(早在2006年维基百科中就出现了关于这一概念的页面)。然而尽管人们多年来一直在对此类方案进行探讨,我却发现很多企业实际上尚未就此规划出明确发展思路、甚至没能真正意识到其中蕴含的巨大效益。为什么会这样?一大原因在于目前市场上的实时商务智能与分析工具仍然非常有限。传统数据仓库环境针对的主要是批量处理流程,这类方案要么延迟极高、要么成本惊人——当然转载 2015-12-17 17:09:19 · 4601 阅读 · 0 评论 -
hdfs 的存储系统的简介
,当用client向hdfs中写入数据的时候. 当我们向hdfs 写数据的时候,客户端要做两件事.首先,将数据文件划分不同的数据块,划分的标准默认是64MB或128MB,这个是可以配置的.其次是向namenode请求一批(实际上就是默认的3个)datanode以存放数据块.当然namenode不是随便的选出三个datanode给client,它会选择三个最靠近clien原创 2015-10-21 17:57:24 · 359 阅读 · 0 评论 -
hbase分页的功能实现
hbase分页功能的几种实现方案。分页功能是线上系统的常用功能,对hbase,有以下几个方案可以选择(抛砖引玉)。假设要查第N页,1页大小为M1 client分页,scan查到N*M条,过滤掉N*(M--1)条,返回M条。对于M,N较小时比较适合。2 自定义Filter,该filter可以传递offset(server端需要过滤的记录条数),在server端分页,注原创 2015-10-21 16:56:58 · 3274 阅读 · 0 评论 -
java 操作hbase的数据
Java操作Hbase进行建表、删表以及对数据进行增删改查,条件查询1、搭建环境 新建JAVA项目,添加的包有: 有关Hadoop的hadoop-core-0.20.204.0.jar 有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包 2、主要程序原创 2015-10-21 16:43:53 · 551 阅读 · 0 评论 -
mongoDb
当今NoSQL领域中有很多有力的竞争者通过多种方式来处理海量数据问题。其中重要的解决方案之一就是MongoDB。MongoDB是面向文档的弱结构化存储方案,使用JSON格式来展现、查询和修改数据。MongoDB文档相当完备,扩展规模与安装一样简单。它提供冗余、切片、索引以及map/reduce等概念支持。MongoDB的开源社区非常大且非常活跃。MongoDB在很多大型产品中被实际运用,如:Disney, Craigslist, Foursquare, Github 和SourceForge。MongoD原创 2015-10-22 09:56:24 · 474 阅读 · 0 评论 -
hbase Region 的学习
RegionManager --- 负责将 region 分配到 region server 的具体工作,还有监视 root 和 meta 这 2 个特殊 region的状态。RootScanner --- 定期扫描 root region ,以发现没有分配的 meta region 。MetaScanner--- 定期扫描 meta region, 以发现没有分配的 user region 。原创 2015-10-21 17:07:31 · 426 阅读 · 0 评论 -
pig 是什么?
1. 什么是pig? Pig在Hadoop Pig Latin,并行的数据流语言 pig是hadoop上层的衍生架构,与hive类似。对比hive(hive类似sql,是一种声明式的语言),pig是一种过程语言,类似于存储过程一步一步得进行数据转化。5.Pig Latin的介绍 大小写敏感 注释 输入和输出 加载(Load) 存储(Store)原创 2015-10-22 09:37:04 · 2400 阅读 · 0 评论 -
HBase 命令详解
. 介绍 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。 HBase以表的转载 2015-10-21 16:33:44 · 782 阅读 · 0 评论 -
Hive Hbase Pig 区别
对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的。本文将尝试从其各自的定义、特点、限制、应用场景等角度来进行分析,以作抛砖引玉之用。 Hive是什么?Apache Hive是一个构建于Hadoop(分布式系统基础架构)顶层的数据仓库,注意这里不是数据库。Hive可以看作是用户编程接口,它本身不存储和计算数据;它依赖于HDFS(Hadoop分布式文件系统)和MapRed原创 2015-10-21 17:21:32 · 675 阅读 · 0 评论 -
HBase学习(1)
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来转载 2015-10-21 16:21:20 · 365 阅读 · 0 评论 -
region 学习(2)
HBase region的分裂过程如图所示,其中红色代表RegionServer和或Master的行为,绿色的代表Clients的行为。1、RegionServer决定本地的region分裂,并准备分裂工作。第一步是,在zookeeper的/hbase/region-in-reansition/region-name下创建一个znode,并设为SPLITTING状态。2、M转载 2015-10-21 17:09:36 · 5400 阅读 · 0 评论 -
Hadoop组成简介
Hadoop组成简介 浏览(1647)|评论(0) 交流分类:Java|笔记分类: hadoop Hadoop是Apache的一个项目(它是包含了很多子项目的集合,见下图),它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架,当然分布式计算离不开分布式存储,Hadoop框架包含了分布式存储系统HDFS(Hadoop Di原创 2015-10-19 15:11:57 · 673 阅读 · 0 评论 -
hive 的数据仓库的使用
1.什么是hive数据仓库•Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。•本质是将SQL转换为MapReduce程序2.为什么要使用Hive•操作接口采用类SQL语法,提供快速开发的能力•避免了去写MapReduce,减少开发人员的学习成本•扩展功能很方便Hi原创 2015-10-19 14:59:08 · 484 阅读 · 0 评论 -
Hadoop的调度器总结
Hadoop的调度器总结 浏览(1075)|评论(0) 交流分类:Java|笔记分类: hadoop 随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Had转载 2015-10-19 15:04:15 · 322 阅读 · 0 评论 -
Storm让大数据分析变得轻松加愉快。
简单和明了,Storm让大数据分析变得轻松加愉快。当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量,实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发,通常被比作“实时的Hadoop”。原创 2015-12-17 16:14:36 · 615 阅读 · 0 评论