Hadoop
钛合金编程
静以修身,俭以养德!The greatest thing is, at any moment, to be willing to give up who we are in order to become all that we can be.
展开
-
几分钟,让你理解MapReduce 1框架概念
假期里,没什么事干,那就写一下blog。梳理一下MapReduce 1 的基本概念,仅供参考。 上面这个图,基本上可以说明MapReduce的工作流程。下面细说,并举了一个实例。 MapReduce工作就是将处理过程划分为两个阶段:map阶段和reduce阶段。每个有key-value对作为输入和输出,其类型是由程序员选择的。程序员能够指定有个函数:map函数和原创 2014-02-04 23:47:44 · 2676 阅读 · 0 评论 -
Hadoop集群硬件标准配置
在我们选择硬件的时候,往往需要考虑应用得到的性能和经费开支。为此,我们必须在满足实际需要和经济可行上找到一个完美的平衡。下面,以Hadoop集群应用为了例子,说明需要考虑的要素。 1. I/O绑定的工作负荷。 Hadoop涉及到的I/O操作,主要包括下列几项:索引(Indexing)群化(Grouping)数据导入和导出(Data importing原创 2014-05-11 21:09:57 · 6207 阅读 · 1 评论 -
大数据Lambda架构
1 Lambda架构介绍Lambda架构划分为三层,分别是批处理层,服务层,和加速层。最终实现的效果,可以使用下面的表达式来说明。query = function(alldata)1.1 批处理层批处理层主用由Hadoop来实现,负责数据的存储和产生任意的视图数据。计算视图数据是一个联系操作,因此,当新数据到达时,使用MapReduce迭代地将数据聚集到视图中。 从整个数据集中计算原创 2014-05-10 19:58:01 · 16911 阅读 · 1 评论 -
hadoop生态系统默认端口集合
1 HDFS服务中,默认端口集合: 1. HDFS 端口ServiceServersDefault Ports UsedProtocolDescriptionNeed End User Access?Configuration ParametersNameNode WebUIMaster Nodes (NameNo原创 2014-04-28 16:40:53 · 2772 阅读 · 0 评论 -
hadoop2.2.0 hadoop-auth pom文件中的一个 bug
hadoop-common-project/hadoop-auth/pom.xml org.mortbay.jetty+ jetty-util+ test+ + + org.mortbay.jetty jetty test原创 2014-04-23 15:14:32 · 1559 阅读 · 0 评论 -
企业级Hadoop能够解决的问题
Hadoop著名的提供商主要有 Amazon Web Services, Cloudera, Hortonworks, IBM, Intel, MapR Technologies, Microsoft, Pivotal Software, and Teradata,这些都是比较出名的行业大佬,中国也有一些公司可以提供这样的服务。三大巨头--腾讯、百度、阿里巴巴,在这方面做得比较领先。那么,企业级H原创 2014-03-06 22:48:26 · 1479 阅读 · 0 评论 -
Hadoop REST API -- WebHDFS(下)
下面主要介绍几种常用的WebHDFS操作。5.1 创建 创建一个目录/tmp/webhdfs。curl-i -X PUT"http://hadoop-master:14000/webhdfs/v1/tmp/webhdfs?user.name=app&op=MKDIRS"HTTP/1.1 200 OKServer: Apache-Coyote/1.1Set-Cookie:h原创 2014-02-26 22:54:39 · 6823 阅读 · 2 评论 -
Hadoop REST API -- WebHDFS(上)
介绍 Hadoop提供了一个Java native API来支持对文件系统进行创建,重命名,删除文件或者目录,打开读取或者写文件,设置文件权限等操作。这对于运行在hadoop集群中的应用程序来说是挺棒的,但是,也有许多外部的应用程序需要操作HDFS的情况,怎么办?如果解决这种问题呢?Hortonworks 开发了一些额外的API来支持这些基于标准REST功能的需求。WebHDFS R原创 2014-02-25 00:11:09 · 7841 阅读 · 0 评论 -
OOzie简介
用几句话就可以概括什么事Oozie:Oozie是一个管理Hdoop作业(job)的工作流程调度管理系统。Oozie的工作流是一系列动作的直接周期图。Oozie协调作业就是通过时间(频率)和有效数据触发当前的Oozie工作流程Oozie是Yahoo针对Apache Hadoop开发的一个开源工作流引擎。用于管理和协调运行在Hadoop平台上(包括:HDFS、Pig和MapRedu原创 2014-02-07 23:14:39 · 6898 阅读 · 0 评论 -
搭建Hadoop 2.2.0 和 HBase 0.94.14 集成
使用最新的Hadoop集群与HBase搭建一个分布式的运行环境,最新的Hadoop稳定版本是2.2.0,HBase 的稳定版本是0.94.14 ,搭建过程如下:1. 安装Hadoop 这个步骤,我的blog hadoop集群安装 2. 安装Hbase HBase 可以用3个模式之一来安装,分别是:独立模式( Standalo原创 2014-01-11 09:22:06 · 6524 阅读 · 2 评论 -
ClientCnxn: Session 0x0 for server null, unexpected error 异常解决
ClientCnxn: Session 0x0 for server null, unexpected error 异常是由于zookeeper配置不成功引起的。 解决方法: 1. 确保zookeer集群安装成功。通过jps能够正确显示zookeeper管理进程QuorumPeerMain。 2. HBase 中的zookeeper配置正确,zookeeper实原创 2014-01-10 16:09:41 · 11088 阅读 · 0 评论 -
ERROR security.UserGroupInformation: PriviledgedActionException 问题解决
运行Hadoop mapreduce 实例: bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /input /output 报出ERROR security.UserGroupInformation: Priviled原创 2013-12-30 17:01:57 · 6362 阅读 · 0 评论 -
Eclipse 安装Hadoop-2.2.0插件
1. 安装准备1.1 Eclipse下载最新的Eclipse Linux版本,这里主要介绍Linux环境下的安装。64位Linux版本下载,点击eclipse-jee-kepler-R-linux-gtk-x86_64.tar.gz。解压缩,安装指令省略。1.2 hadoop2x-eclipse-plugin在github托管门户中下载hadoop2x-ecli原创 2014-01-25 15:14:18 · 4953 阅读 · 1 评论 -
hadoop 2.7.3 HA 安装指南
Hadoop 2.7.3 HA 安装指南原创 2016-11-07 09:54:46 · 2417 阅读 · 0 评论 -
学习Hadoop生态系统最值得一读的书籍
学习大数据的处理,有必要读一下有关大数据的书籍。这里,我列举了几本书,仅供参考。 1 ZooKeeper: Distributed Process Coordination 这本书针对的是初级或者高级的开发,面向Zookeeper编程的工程师们。如果你的工程中(如HBase)涉及到Zookeeper的应用,有必要了解一下Zookeeper的管理知识和一些基本解原创 2014-05-11 21:41:24 · 8664 阅读 · 1 评论 -
Hadoop 2.4.0新特性介绍
在2014年4月7日,Apache发布了Hadoop 2.4.0 。相比于hadoop 2.3.0,这个版本有了一定的改进,突出的变化可以总结为下列几点(官方文档说明):1 支持HDFS访问控制列表(ACL,Access Control Lists) 这个特性解决了在一定情况下,文件权限访问的权限问题。其机制是基于Linux文件访问权限的特征,如果你熟悉Linux的文件访问机原创 2014-05-12 16:57:24 · 1880 阅读 · 0 评论 -
解决Hadoop一些小问题(整理版)
1 dfsadmin -setQuota的问题dfsadmin -setQuota 限制文件数量dfsadmin -setSpaceQuota 限制磁盘空间2 解决Hadoop小文件问题? 数据块的默认大小是64M,如果一个文件的大小小于64M,那么它就属于Hadoop的小文件。这样会浪费空间,所以要使用archive的方式来实现归并小文件。数据块的大小可以使用原创 2014-09-24 16:42:21 · 1015 阅读 · 0 评论 -
HRegionServer: Master rejected startup异常解决
这个是由于集群中的系统时钟不一致而引起的异常。 解决方法: 安装ntpdate同步服务。sudo ntpdate pool.ntp.org 同步系统时钟就OK了原创 2014-01-10 15:49:19 · 1164 阅读 · 0 评论 -
java实现对HDFS增删改查(CRUD)等操作
实现对HDFS增删改查CRUD等操作1 查找列出某个目录下的文件名称,hdfs命令如下所示:hdfs dfs –ls/usr/appjava代码片段: public void list(String srcPath) { Configuration conf = new Configuration();原创 2014-03-12 21:16:58 · 3787 阅读 · 0 评论 -
那些年,我读过的技术书(Java下篇)
4 Java JVM Java虚拟机的工作原理,那些参数涉及到性能优化的,这样都有必要知道。下面几本书,有必要读一下。The Java™ Virtual Machine Specification (2nd Edition)Inside the Java 2 Virtual Machine深入理解java虚拟机原创 2014-03-05 23:41:58 · 1566 阅读 · 0 评论 -
Kettle(Pentaho DataIntegration)实现Hadoop-2.2.0 文件复制
这个实例很简单,难点在于你的Hadoop2.20插件的安装(我的上一篇博文)。实现的步骤如下: 1. 创建job 创建一个Kettle的job,实现如下效果。原创 2014-01-22 22:33:56 · 3447 阅读 · 0 评论 -
了解Apache Bigtop
Bigtop 是一个工程的系统开发包,对Apache Hadoop生态系统的测试。 Bigtop的主要目标就是构建一个Apache Hadoop生态系统的包和交互式测试的社区。这个包括对各类不同级别工程进行测试(包,平台,运行时间,升级等...),它由社区以关注系统作为一个整体开发而来。 构建Bigtop 包能够被构建在Ubuntu 10.10, Ce翻译 2014-02-06 11:38:28 · 4897 阅读 · 0 评论 -
Kettle(Pentaho DataIntegration) 安装Hadoop-2.2.0插件
1 安装前的准备工作 1.1 Pentaho Data Integration当前的CE 版本Pentaho Data Integration 是5.0.1,下载地址:http://www.pentaho.com/download/。你也可以尝试企业版EE,这里不做介绍了。下载完成后,压缩到指定的目录下。 1.2 Hadoop 2.2.0下载最新稳定版本的Hadoop原创 2014-01-22 22:18:55 · 7990 阅读 · 11 评论 -
Hadoop 2.2.0 分布式集群搭建
本人安装的Hadoop2.2的系统是 64 bit CentOS 6.5,安装步骤如下。1. 预备条件 * 安装了Java 6.0以上版本的JDK; * 必备开发库,运行脚本 yum -y install lzo-devel zlib-devel gcc autoconf automake libtool cmake opens原创 2013-12-30 21:12:43 · 3106 阅读 · 0 评论 -
用Maven构建Spark
设置maven JVM参数:export MAVEN_OPTS="-Xmx2g-XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"指定Hadoop,构建Spark工程。# ApacheHadoop 2.0.5-alphamvn -Pyarn-alpha-Dhadoop.version=2.0.5-alpha-DskipTests原创 2014-07-21 22:15:34 · 1575 阅读 · 0 评论 -
Spark Web界面
1.7 Spark Web 界面每一个SparkContext发布一个web界面,默认端口是4040,它显示了应用程序的有用信息。这包括:Ø 一系列的调度阶段和任务Ø 对于RDD大小和内存使用的总结Ø 环境信息Ø 运行的执行器(executor)的信息你可以通过浏览器访问http://:4040,当然,你必去先启动SparkContext。比如命令:./bin/sp原创 2014-07-27 23:40:10 · 12516 阅读 · 0 评论 -
Zookeeper 集群搭建
分布式Zookeeper安装步骤:1. 安装准备 1.1 下载Zookeeper。下载链接:http://mirrors.hust.edu.cn/apache/zookeeper/ 1.2 解压缩到指定的目录下,比如:/opt/zookeeper下。 1.3 修改系统的hosts文件,指定域名映射。例如:192.168.177.167 mac原创 2014-01-10 15:43:05 · 2502 阅读 · 0 评论 -
典型大数据计算模式与系统
典型大数据计算模式与系统 典型大数据计算模式典型系统大数据查询分析计算HBase,Hive,Cassandra,Impala,Shark,Hana等批处理计算Hadoop MapReduce,Spark等流式计算Scribe,Flume,Storm,S4, Spark S原创 2015-01-13 21:19:55 · 4683 阅读 · 0 评论 -
掌握机器学习和知识图谱很重要
" 从计算机学界的理解来看,大数据的核心技术是机器学习和知识图谱。这是一种框架性的知识,介于基础设施和应用之间的技术。例如大数据应用的代表谷歌公司就有两个大的开发方向,一个是机器学习,另一个是由搜索团队负责的知识图谱。 任何一种大数据方案都不可能适合所有的行业,因此,大数据的核心业务必然是一种扎根于特定行业,综合运用已有的存储、分析、挖掘、展现技术,根据用户需求并融入行业特色原创 2015-01-13 16:38:00 · 4151 阅读 · 0 评论 -
Hadoop 2.7集群安装指南
Hadoop 2.7集群安装安装环境是centOS环境。有三个下面的主机:balance01 hadoop_masterbalance02 node02 balance03 node03配置Linux安装账号三步创建一个用户,使他有与root一样的权限。1) 用root下,创建一个用户“app” 组 [root@da原创 2016-10-24 14:06:41 · 938 阅读 · 0 评论