hadoop学习
Cbird-coder
将这人工智障的时代拉回正轨
展开
-
Hadoop集群搭建之二(测试hadoop集群)
搭建好hadoop集群后,需要测试下集群看各节点是否工作正常。这里主要参考两篇官方文档:1.单集群hadoop测试(http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/SingleCluster.html)2.HDFS文件系统操作手册(http://hadoop.apache.org/docs/r原创 2015-03-24 23:16:40 · 616 阅读 · 0 评论 -
Hadoop文件系统之上传下载文件
如何将本地文件上传到hadoop,又如何将hadoop文件下载到本地。借助于java.net.URL的InputStream读取HDFS的地址,在Hadoop集群中,要使用HDFS自己的文件系统FileSystem,必须生成一定的配置,有以下几种方法生成:public static FileSystem get(Configuration conf) throws IOException原创 2015-06-28 00:25:21 · 3741 阅读 · 0 评论 -
hadoop的文件操作
hdfs操作的命令使用方法,具体的操作可以查看上面Apache官网的详细说明,一般使用的方式如下: hdfs [SHELL_OPTIONS] COMMAND [GENERIC_OPTIONS] [COMMAND_OPTIONS]这里我们主要查看hadoop文件shell的使用方法:hdfs文件shell这里的使用hdfs的shell命令的格式:hdfs dfs -command原创 2015-06-24 00:21:50 · 1004 阅读 · 0 评论 -
hadoop使用pig进行数据分析时遇到的问题(10020号端口问题,连接拒绝)
编写hadoop应用程序的map与reduce并不难,但是要完整控制整个框架的编写,需要对Java语言非常非常熟悉。而我一直做Linux下C编程的人,只能寻找更加适合我的方式。Apache项目下给出了一个可以较简单地操作hadoop的MapReduce的工具,这就是pig。它在 MapReduce的基础上创建了更简单的过程语言抽象,为 Hadoop应用程序提供了一种更加接近结构化查询语言原创 2015-06-01 17:17:06 · 3537 阅读 · 0 评论 -
hadoop图像处理接口hipi
了解详细的资料可以登录弗吉尼亚大学网站(http://hipi.cs.virginia.edu/)下载库:git clone git@github.com:uvagfx/hipi.git下载完源代码后,需要编辑源代码中build.xml,此文件就在hipi的源代码的根文件下。修改hadoop的安装路径以及hadoop的安装版本。比如下面是针对hadoop2.6版本所做的修改原创 2015-06-24 00:22:57 · 4463 阅读 · 2 评论 -
基于hadoop2.6安装hive与pig的问题
安装hive、pig时,需要在/etc/profile添加下面的环境变量export HIVE_HOME=/usr/local/hiveexport PIG_HOME=/usr/local/pigexport HIVE_CLASSPATH=/usr/local/hadoop/etc/hadoop/export PIG_CLASSPATH=/usr/local/hadoop/etc/had原创 2015-04-20 19:56:11 · 2459 阅读 · 3 评论 -
hadoop运行程序出现Error: Java heap space
从错误本身可以发现是堆错误,很明显是设置的值太小而导致这样错误。在hadoop开始配置的时候,在hadoop/etc/hadoop/目录下的hadoop-env.sh文件中export HADOOP_HEAPSIZE=是被注释掉的,查看上面的注释,这个值默认为1000,单位为Mb这里去掉注释,修改为2000,需要注意的是这里要根据内存大小来选择值export HADOOP_HEAP原创 2015-05-06 09:48:47 · 5437 阅读 · 2 评论 -
搭建基于hadoop2.6的eclipse开发平台
首先需要编译eclipse插件。下载源代码:git clone https://github.com/winghc/hadoop2x-eclipse-plugin.git注意编译之前,需要安装ant。未安装时候,到apache官网下载安装包http://ant.apache.org/bindownload.cgi下载完成hadoop-eclipse插件后,在当前目录下会有一个文件夹ha原创 2015-04-24 16:58:55 · 532 阅读 · 0 评论 -
搭建基于hadoop平台的机器学习工具Mahout
在看mahout之前,先看看它的logo:有了Mahout,我们大象才会按照预期的想法去做事儿~驭象者~~~~ho~~~~~~~~Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提原创 2015-04-10 22:54:37 · 2597 阅读 · 0 评论 -
hadoop集群搭建之一(Hadoop环境安装)
集群环境:操作系统:CentOS 6.4软件版本:jdk-6u45-linux-x64.bin , hadoop-2.6 .tar.gz 集群架构:包括4个节点:1个master,3个salve,节点之间局域网连接,可以相互ping通。节点IP地址分布如下:主机名 IP系统版本Hadoop nodehad原创 2015-03-24 18:45:08 · 768 阅读 · 0 评论 -
hdfs多次格式化后,datanode启动不了
用name下面的clusterID,修改datanode的...../dfs/data/current/VERSION 里面的clusterID每次格式化,name下面的VERSION的clusterID会产生一个新的ID,要去修改各个节点的VERSION的clusterID……/dfs/name/current/VERSION#Fri Jan 03 10:37:48 CST 2015原创 2015-04-10 18:45:25 · 1147 阅读 · 0 评论 -
HBase各个参数配置
在对Hbase的配置文件hbase-site.xml进行设置的时候,会涉及到以下一些参数,从网上到处扒拉出来,在这里做一个记录!hbase.rootdir这 个目录是region server的共享目录,用来持久化Hbase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的 '/hbase'目录,namenode 运行在namenod原创 2015-04-01 21:17:02 · 863 阅读 · 0 评论 -
Hadoop集群datanode死掉情景之一
今天集群里面新添加一个机器,重新启动集群后,ssh到新添加的机器上,用jps命令查看,发现DataNode进程早已经死掉。查看日志文件发现有一条这样的错误:SHUTDOWN_MSG: Shutting down DataNode at java.net.UnknownHostException:slave1.hadoop可以为非法的hostname引起的,使用命令hostname查看当前机器的原创 2015-03-24 15:34:32 · 2055 阅读 · 0 评论 -
hadoop集群搭建之三(Hbase、zookeeper安装)
前两步实现了Hadoop集群的搭建,但是对于数据的存储要用数据库。一般小规模的网站上,我们会用MySQL,在WEB应用方面 MySQL 是最好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件之一。但是MySQL在处理大型的并发性能上远远不行。这里我们会考虑用oracle和Hbase,对于大量的统计业务就使用Oracle,而原创 2015-03-30 23:40:31 · 784 阅读 · 0 评论 -
hadoop常用端口及定义方法
hadoop经常使用到的组件有:HDFS, YARN, HBase, Hive, ZooKeeper组件节点默认端口配置用途说明HDFSDataNode50010dfs.datanode.addressdatanode服务端口,用于数据传输HDFSDataNode50075df原创 2015-04-01 21:23:58 · 3916 阅读 · 0 评论 -
hadoop内存大小设置问题
前面博客里面提到,运行一次hadoop的时候出现java heap error。字面意思分配堆的时候出现错误,我们知道应用程序的动态内存的分配均在堆里面。这里提示堆错误,那必然是内存不够用了。那么这个namenode内存的大小该怎么取值呢?namenode管理着集群里面所有文件的信息。简单根据文件信息给出一个准确计算内存大小的公式是不现实的。hadoop默认namenode内存的大小为10原创 2015-07-13 10:22:16 · 17767 阅读 · 0 评论