hadoop
文章平均质量分 62
袁先生的博客
智来科技(大连)有限公司
展开
-
利用JavaAPI访问HDFS的文件
1、重读配置文件core-site.xml要利用Java客户端来存取HDFS上的文件,不得不说的是配置文件hadoop-0.20.2/conf/core-site.xml了,最初我就是在这里吃了大亏,所以我死活连不上HDFS,文件无法创建、读取。hadoop.tmp.dir/home/zhangzk/hadoopA base for other原创 2012-05-08 09:40:00 · 764 阅读 · 1 评论 -
HBase入门篇3
前两篇文件分别说到了我在学习HBase中的一些入门经验,而《HBase 入门3》这篇文章浅显的从几个方面谈谈HBase的一些优化技巧,只能作为我学习笔记的一部分,因为学多了怕忘,留给自己以后看看。1 修改 linux 系统参数 Linux系统最大可打开文件数一般默认的参数值是1024,如果你不进行修改并发量上来的时候会出现“Too Many Open Files”的错误,导致整个H原创 2012-07-19 14:02:50 · 466 阅读 · 0 评论 -
HBase入门篇4
前几篇文章讲述了 HBase的安装、Hbase命令和API的使用、HBase简单的优化技巧,《HBase入门篇4》这篇文章是讲述把HBase的数据放在HDFS上的点滴过程。目前对与HBase我是一个绝对的新手,如果在文章中有任何我理解有错误的地方请各位指正,谢谢。Ok,进行正题 ……… 在HBase中创建的一张表可以分布在多个Hregion,也就说一张表可以被拆分成多块,每一块称我原创 2012-07-19 14:03:53 · 581 阅读 · 0 评论 -
Apache Zookeeper入门1
口水:Zookeeper是我目前接触过Apache开源系统中比较复杂的一个产品,要搞清楚这个东东里面的运作关系还真不是一时半会可以搞定的事,本人目前只略知皮毛之术。ZooKeeper 是什么? ZooKeeper 顾名思义 动物园管理员,他是拿来管大象(Hadoop) 、蜜蜂(Hive) 、 小猪(Pig) 的管理员, Apache Hbase和 Apache Solr 以及Lin原创 2012-07-19 13:57:01 · 896 阅读 · 0 评论 -
HBase入门篇1
HBase是什么? HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如右侧的图所示:HBase在产品中还包含了Jetty,在HBase启动时采用嵌入式的方式来启动Jetty,因此可原创 2012-07-19 14:01:25 · 828 阅读 · 0 评论 -
巧用zookeeper实现分布式并行计算
云计算的技术话题中少不了“分布式”,“并行计算” 这些个关键词,我们知道硬件扩展的条件(Scale-up)始终是有限制的,将计算分散到网络中更多机器的CPU上提供更高的计算性能(Scale-out),并在这基础上能将计算同时进行,那么总体计算瓶颈会减小,计算的性能会显著提高,也就是说将串行计算变为并行计算,将大量的计算在同一时间发生,,将任务分配到每一个处理器上。这里面需要一个重要的角色,分布式原创 2012-07-19 13:56:18 · 2005 阅读 · 0 评论 -
Apache ZooKeeper入门2
记得在大约在2006年的时候Google出了Chubby来解决分布一致性的问题(distributed consensus problem),所有集群中的服务器通过Chubby最终选出一个Master Server ,最后这个Master Server来协调工作。简单来说其原理就是:在一个分布式系统中,有一组服务器在运行同样的程序,它们需要确定一个Value,以那个服务器提供的信息为主/为准,当这原创 2012-07-19 13:58:29 · 832 阅读 · 0 评论 -
HBase入门篇2
本篇文章讲述用HBase Shell命令 和 HBase Java API 对HBase 服务器 进行操作。在此之前需要对HBase的总体上有个大概的了解。比如说HBase服务器内部由哪些主要部件构成?HBase的内部工作原理是什么?我想学习任何一项知识、技术的态度不能只是知道如何使用,对产品的内部构建一点都不去关心,那样出了问题,很难让你很快的找到答案,甚至我们希望最后能对该项技术的领悟出自己的原创 2012-07-19 14:02:21 · 660 阅读 · 0 评论 -
hbase二级索引
二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性。RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index, ITHbase, Facebook和官方Coprocessor方案的介绍。理论目标原创 2012-08-06 09:20:30 · 1340 阅读 · 0 评论 -
hadoop,hbase,zookeeper错误日志及部分解决办法
【收集】hadoop,hbase,zookeeper错误日志及部分解决办法这是一位网友收集的hadoop,hbase,zookeeper错误日志及部分解决办法,以备以后遇到问题作为参考之用。hadoop-0.20.2 & hbase-0.90.1集群启动错误问题解决:问题如下:org.apache.hadoop.ipc.RPC$VersionMismatch: Pr原创 2012-08-01 17:25:18 · 3096 阅读 · 0 评论 -
hadoop搭建异常 /tmp/hadoop-root/mapred/system/jobtracker.info could only be replicated to 0 nodes, inste
/tmp/hadoop-root/mapred/system/jobtracker.info could only be replicated to 0 nodes, instead of 1java.net.NoRouteToHostException: No route to host在hadoop集群中使用copyFromLocal命令的时候发生错误,识别不到datanode原创 2012-08-22 09:46:36 · 1501 阅读 · 0 评论 -
基于Hbase存储的分布式消息(IM)系统-JABase
前段日子看了在highscalability.com上一篇介绍facebook消息系统的文章,一夜之后被无数个网站无数次的转载,现如今facebook的任何一个话题都会引起很多人的关注,但我对只对这文章里面没有说明的部分比较感兴趣,系统里是怎么获得即时消息的?PHP监听器?开启很多个监听器服务?推模式?拉模式?跟Twitter一样采用消息中间件?对此有了些疑问,期待日后有人能给出明确解答。原创 2012-07-19 14:00:35 · 1170 阅读 · 0 评论 -
基于Eclipse的Hadoop应用开发环境的配置
基于Eclipse的Hadoop应用开发环境的配置配置好了Hadoop运行环境,下一步就要配置,开发环境了。实际上开发环境很好配置,网上很多的帖子,都指向了IBM提供的Hadoop开发工具,这个工具很好用。大家打开这个网址,很容易就能Step by step搞定,http://www.alphaworks.ibm.com/tech/mapreducetools。但是细心的读者不难发现,这个工具原创 2012-08-02 16:37:15 · 726 阅读 · 0 评论 -
Hadoop本地开发环境搭建
1. 概述在此处指的Hadoop开发主要是指MapReduce方面,通过Hadoop的Eclipse插件及在Eclipse中配置,就可以达到在本地连接远程服务器进行MapReduce的开发、运行。2. 准备Ø Hadoop下载在搭建之前,必须先下载一个Hadoop版本,在这里我们使用Hadoop-1.0.0,官方网址为:http://hadoop.apache原创 2012-08-02 14:52:35 · 938 阅读 · 0 评论 -
Servlet实现HDFS系统的远程上传
首先要使用apache的commons.fileupload包,这个可以去官网上下的啦...很方便另外还要使用:hadoop-core.jar以及logging.jar,大家都下下来,放到Servlet的lib下吧。我身边的哥们用的是Struts实现,大家有兴趣的话,可以以后发给大家一起瞅瞅upload.htm源码: Fil原创 2012-05-08 13:20:40 · 1952 阅读 · 1 评论 -
Hadoop分布式文件系统:架构和设计要点
原文:http://hadoop.apache.org/core/docs/current/hdfs_design.html一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之原创 2012-05-08 14:12:37 · 561 阅读 · 0 评论 -
Hadoop环境搭建-集群
进入《Hadoop环境搭建-单点》 流程:配置阶段:配置一系列文件在所有slave节点上拷贝master和JobTracker的公钥在JobTracker节点上拷贝master的公钥运行阶段:启动hadoop跑wordcount集群搭建准备:至少两台已完成单节点搭建的机器(此例为两台,IP分别是192.168.1.10与192.168.1原创 2012-05-08 09:09:56 · 823 阅读 · 0 评论 -
Hadoop环境搭建-单节点
《Hadoop环境搭建-集群》 自漫聊1.0发布以来,研究Hadoop也有一段时间了,目前环境已基本搭建好,规模为15台的小型集群,昨晚测试时是用wordcount统计一个1.2G的log文件,总耗时2分16秒,虽然测试文件不大,但其性能的优越性已经体现出来了。 闲话不多说了,进正题。 注:本文的环境搭建是针对双系统和linux系统的,而非win下的虚拟机原创 2012-05-08 09:07:58 · 1224 阅读 · 1 评论 -
Hadoop 集群配置(最全面)
通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\官方地址:(http://hadoop.apache.org/common/docs/r0.19.2/cn/cluster_setup.html)1 先决条件确保在你集群中的每原创 2012-05-14 21:33:50 · 623 阅读 · 0 评论 -
hadoop Unrecognized option: -jvm
情景描述: 在VM虚拟机上,按照hadoop手册,搭建Single Node. 启动hadoop时 #./start-all.sh 报错: ####################################################### localhost: Unrecognized op原创 2012-05-16 00:07:17 · 1525 阅读 · 0 评论 -
Chukwa 0.4.0 详细安装流程
1.安装好hadoop,确保hadoop运行无误(我hadoop版本为0.20.2)2.去官网上下载chukwa 0.4.0版本:http://www.apache.org/dyn/closer.cgi/hadoop/chukwa/chukwa-0.4.03.下载后别急着分发到各个节点,因为代码中存在着一个bug,这个bug会影响后面hicc的显示,所以需要经过修改编译以后再将原创 2012-07-17 11:34:23 · 920 阅读 · 0 评论 -
hbase shell脚本
下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录原创 2013-01-26 11:13:00 · 801 阅读 · 0 评论