hadoop
文章平均质量分 55
_djsecret
成长比成功更重要
展开
-
Hadoop-0.20.203.0通过Eclipse连接编程
对于Hadoop开发者来讲,通过JAVA API编程是进入Map-Reduce分布式开发的第一步。由于Eclipse本身并没有提供对MapReduce编程模式的支持,所以需要一些简单的步骤来实现。1. 安装Hadoop。本文的Hadoop是部署在虚拟机上的伪分布模式。相关软件环境如下:JDK: sun jdk1.6.0_30Hadoop: hadoop-0.20.203.0L转载 2012-08-06 15:58:35 · 1148 阅读 · 1 评论 -
hadoop运行程序是出现java heap space
最近使用hadoop分布式缓存处理数据,经常出现java heap溢出,google了一下,问题解决:方法1:修改hadoop环境配置文件conf/hadoop-env.sh,加入下面两行:export HADOOP_HEAPSIZE=2000export HADOOP_CLIENT_OPTS="-Xmx1024m $HADOOP_CLIENT_OPTS"方法2:以上方法是对所有程原创 2013-05-29 18:36:11 · 2312 阅读 · 0 评论 -
hadoop配置文件详解、安装
一、 Hadoop伪分布配置 1. 在conf/hadoop-env.sh文件中增加:export JAVA_HOME=/home/Java/jdk1.6 2. 在conf/core-site.xml文件中增加如下内容: fs.default.name -这是一个描述集群中NameNode结点的URI(包括协议、转载 2012-07-20 19:08:00 · 1120 阅读 · 0 评论 -
利用Sqoop把SqlServer数据库中的表导入导出到HDFS
为了能够和HDFS之外的数据存储库进行交互,MapReduce程序需要使用外部API来访问数据。Sqoop是一个开源的工具,它允许用户将数据从关系型数据库抽取到Hadoop中,用于进一步的处理。抽取出来的数据可以被Mapreduce程序使用。也可以被其他类似于Hive的工具使用。一旦形成分析结果,Sqoop便可以将这些结果导回数据库,以供其他客户端使用。Sqoop的安装从http://ar转载 2013-01-27 11:10:58 · 1646 阅读 · 0 评论 -
HDFS学习随笔
1.流式数据访问HDFS的构建思想是这样的:一次写入,多次读取是最高效的访问模式。数据集通常有数据源生成或从数据源复制而来,接着长时间在此数据集上进行各类分析。每次分析都将设计数据集的大部分数据甚至全部,因此读取整个数据集的时间延迟比读取第一条数据的时间延迟更重要。2.关于时间延迟的数据访问要求低时间延迟数据访问的应用,例如几十毫秒的范围,不适合在HDFS上运行,记住,HDFS是为高数原创 2012-08-13 11:41:42 · 3234 阅读 · 0 评论 -
HDFS文件操作命令
Hadoop使用的是HDFS,能够实现的功能和我们使用的磁盘系统类似。并且支持通配符,如*。1. 查看文件列表查看hdfs中/user/admin/hdfs目录下的文件。a. 进入HADOOP_HOME目录。b. 执行sh bin/hadoop fs -ls /user/admin/hdfs查看hdfs中/user/admin/hdfs目录下的所有文件(包括子目录下的文件)。原创 2013-01-28 11:21:36 · 2576 阅读 · 0 评论 -
hadoop集群目录和端口配置
参数描述 默认 配置文件例子值dfs.name.dirname node的元数据,以,号隔开,hdfs会把元数据冗余复制到这些目录,一般这些目录是不同的块设备,不存在的目录会被忽略掉{hadoop.tmp.dir}/dfs/namehdfs-site.xm/hadoop/hdfs/namedfs.name.edits.dir原创 2012-07-25 09:48:41 · 2508 阅读 · 0 评论 -
hadoop运行eclipse生成jar
配置好hadoop基于eclipse的允许环境后,项目右键->run on hadoop后,会在eclipse对应的workspace\.metadata\.plugins\org.apache.hadoop.eclipse下,自动生成jar文件,以及其他文件,包括Haoop的一些具体配置等。如何打包 将创建的Map/Reduce项目打包成jar包,很简单的事情,无需多转载 2012-08-08 16:48:08 · 1642 阅读 · 0 评论 -
NameNode的format操作
在Hadoop的HDFS部署好了之后并不能马上使用,而是先要对配置的文件系统进行格式化。在这里要注意两个概念,一个是文件系统,此时的文件系统在物理上还不存在,或许是网络磁盘来描述会更加合适;二就是格式化,此处的格式化并不是指传统意义上的本地磁盘格式化,而是一些清除与准备工作。本文接下来将主要讨论NameNode节点上的格式化。 我们都知道,NameNode主要被用来管理整个分布式文转载 2012-07-25 09:44:44 · 1229 阅读 · 0 评论 -
ubuntu搭建hadoop
搭建hadoop也有一段时间了,真是太没有效率了,小小的记录一下。我的OS是ubuntu11.04,hadoop版本是0.20.203.0,jdk是1.6.0_33。一共3台电脑:ip 作用172.16.95.50 namenode,jobtracker172.16.95.51原创 2012-08-06 20:36:06 · 1588 阅读 · 1 评论 -
Hadoop添加删除节点
添加节点1.修改host 和普通的datanode一样。添加namenode的ip 2.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 3.在新节点的机器上,启动服务 [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode[root@slave转载 2013-06-02 13:03:36 · 958 阅读 · 0 评论