hadoop
dreamfly2014
这个作者很懒,什么都没留下…
展开
-
Hive的安装与使用
Hive的安装与使用hive是一个SQL解析引擎,可以在hive中创建表,执行sql语句。创建的表是存储在hdfs中,执行的sql语句是通过MapReduce执行的。可以通过执行sql语句来代替编写MapReduce作业,太方便了!1.解压缩、设置环境hive使用的版本是hive-0.9.0.tar.gz。我们在/usr/local目录下解压缩、重命名转载 2014-05-16 17:14:55 · 766 阅读 · 0 评论 -
hadoop备战:一台x86计算机搭建hadoop的全分布式集群
一台x86计算机搭建hadoop的全分布式集群原创 2014-05-25 22:32:07 · 3171 阅读 · 0 评论 -
hadoop应用(云计算大会)
第六届中国云计算大会于2014年5月20-23日在北京国家会议中心拉开帷幕。转载 2014-05-30 10:48:34 · 1256 阅读 · 0 评论 -
hadoop备战:hbase的分布式安装经验
配置HBase时,首先考虑的肯定是Hbase版本与你所装的hadoop版本是否匹配,这一点我在之前的博客中已经说明清楚,hadoop版本与hbase版本的匹配度,那是官方提供的。下面的实验就是本人没参照版本匹配尝试投机的方法,出现了错误。原创 2014-05-29 19:10:50 · 2161 阅读 · 0 评论 -
Hadoop的三种作业调度原理汇总
一个MapRedcue作业是通过JobClient向master的JobTracker提交的(JobTracker一直在等待JobClient通过RPC协议提交作业),JobTracker接到JobClient的请求后把其加入作业队列中。Datanode节点的TaskTracker一直通过RPC向JobTracker发送heartbeat询问有没有任务可做,如果有则让其派发任务过来,Tas转载 2014-05-30 22:34:43 · 4078 阅读 · 1 评论 -
hadoop集群默认配置和常用的配置
获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default转载 2014-05-31 21:46:02 · 1019 阅读 · 0 评论 -
Hadoop配置项(mapred-site.xml)
Hadoop配置项(mapred-site.xml)namevalueDescriptionhadoop.job.history.location job历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件夹下。hadoop.job.history.user.location 用户历史文件存转载 2014-06-03 10:54:50 · 1843 阅读 · 0 评论 -
Hadoop配置项(core-site.xml)
namevalue Description fs.default.namehdfs://hadoopmaster:9000定义HadoopMaster的URI和端口 fs.checkpoint.dir/opt/data/hadoop1/hdfs/namesecondary1定义hado转载 2014-06-03 10:48:57 · 3685 阅读 · 0 评论 -
hadoop备战:yarn框架的搭建(mapreduce2)
x86台式机,window7 64位系统wmware虚拟机(x86的台式机至少是4G内存,才能开2台虚机)centos6.4操作系统hadoop-2.2.0.tar.gzjdk-6u24-linux-i586.binWinScp 远程文件传输工具,很好用。可以用于windows和虚拟机Linux之间文件相互拷贝。原创 2014-06-01 22:30:38 · 1783 阅读 · 0 评论 -
java.io.FileNotFoundException: /home/hadoop/hadoop/dfs/namenode/current/VERSION (Permission denied)
java.io.FileNotFoundException: /home/hadoop/hadoop/dfs/namenode/current/VERSION (Permission denied)原创 2014-06-02 22:06:09 · 6291 阅读 · 0 评论 -
hadoop备战:yarn框架的简介(mapreduce2)
hadoop yarn的重构,根本的思想是将 JobTracker 两个主要的功能分离成单独的组件,这两个功能是资源管理和任务调度 / 监控。新的资源管理器全局管理所有应用程序计算资源的分配,每一个应用的 ApplicationMaster 负责相应的调度和协调。一个应用程序无非是一个单独的传统的 MapReduce 任务或者是一个 DAG( 有向无环图 ) 任务。ResourceManager 和每一台机器的节点管理服务器能够管理用户在那台机器上的进程并能对计算进行组织。原创 2014-06-01 21:37:08 · 3073 阅读 · 0 评论 -
Cannot lock storage /tmp/hadoop-root/dfs/name. The directory is already locked.
ERROR namenode.NameNode: java.io.IOException: Cannot lock storage /tmp/hadoop-root/dfs/name. The directory is already locked.原创 2014-07-09 14:35:55 · 6306 阅读 · 0 评论 -
hadoop备战:hive命令集
创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string创建一个新表,结构与其他一样hive> create table转载 2014-06-20 09:15:32 · 831 阅读 · 0 评论 -
hive正则表达式
hive中的正则可以用,但是有所区别,区别在于原来的‘\’ 转义,这里变成了双斜杠了‘\\’原创 2014-08-05 18:30:45 · 10950 阅读 · 0 评论 -
实现windows操作系统和VB下Linux虚拟操作系统相互传取文件方式总结
实现windows操作系统和Linux虚拟操作系统相互传取文件方式总结原创 2014-05-28 10:33:15 · 1815 阅读 · 0 评论 -
hadoop备战:hadoop,hbase兼容版本汇总
Hbase的安装需要考虑Hadoop的版本,即兼容性。以下考究官网得到的,关于hadoop版本和hbase版本可到以下网址中下载:http://mirror.bit.edu.cn/apache/hbase原创 2014-05-27 22:05:11 · 1436 阅读 · 0 评论 -
ZooKeeper的分布模式安装
ZooKeeper的分布模式安装ZooKeeper(以下简称ZK)是一个分布式协调服务框架,可以做到各节点之间的数据强一致性。简单的理解就是在一个节点修改某个变量的值后,在其他节点可以最新的变化,这种变化是事务性的。通过在ZK节点上注册监听器,就可以获得数据的变化。1.确定集群结构我们打算在三个节点安装ZK,分别是192.168.1.221(hadoop1)、1转载 2014-05-16 17:13:36 · 766 阅读 · 0 评论 -
开源的Spark(最新技术)与hadoop
Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面转载 2014-05-12 11:19:28 · 1426 阅读 · 0 评论 -
Hadoop配置项(hdfs-site.xml)
name valueDescription dfs.default.chunk.view.size32768namenode的http访问页面中针对每个文件的内容显示大小,通常无需设置。dfs.datanode.du.reserved1073741824每块磁盘所保留的空间大小,需要设置一些,主要是给非hdfs文件使用,默认是不保留,0字节转载 2014-06-03 10:52:21 · 1845 阅读 · 0 评论 -
单独配置secondarynamenode
这是在我之前yarn框架上通过添加节点,修改相关的配置文件,使得secondarynamenode独立出来的,所以这里前期的一系列琐碎配置请参考我之前的博客:http://blog.csdn.net/u014078192/article/details/27992567我会在这基础上讲述如何将secondarynamenode抽调出来。原创 2014-06-04 11:11:15 · 2016 阅读 · 0 评论 -
hadoop作业调优参数整理及原理(整个mapreduce运行流程都讲的清楚,一步一步优化)
1 Map side tuning参数1.1 MapTask运行内部原理转载 2014-06-04 15:42:02 · 1736 阅读 · 1 评论 -
Hadoop:Hbase&Hive
Hbase数据管理 Hbase就是Hadoop database。与传统的mysql、oracle究竟有什么差别。即列式数据与行式数据由什么区别。NoSql数据库与传统关系型数据由什么区别:Hbase VS Oracle 1、 Hbase适合大量插入同时又有读的情况。输入一个Key获取一个value或输入一些key获得一些value。 2转载 2014-05-22 15:39:31 · 822 阅读 · 0 评论 -
Apache Mahout 实现的机器学习算法
Mahout实现的机器学习算法集:算法大类算法名称中文名称分类算法Logistic Regression逻辑回归 Bayesian贝叶斯 SVM支持向量机 Perceptron感知器算法 Neural Network神经网络 Random Forests转载 2014-06-05 12:38:18 · 1058 阅读 · 0 评论 -
Hadoop备战:hdfs常用命令(可能有你不知道的)
除介绍的命令外,还有许多bin/hadoop.dfs命令,以上介绍的只是帮助你开始使用HDFS,运行bin/hadoop dfs不带任何参数会列出所有FsShell系统提供的命令,当你遇到问题时执行bin/hadoop dfs –help commandName会显示这个命令的用法。下面是所有命令的介绍,介绍之前先定义一下参数的意义:1. 斜体:表示用户输入的变量。原创 2014-05-22 19:34:13 · 1147 阅读 · 0 评论 -
mapreduce之StringTokenizer命令
StringTokenizer是一个用来分隔String的应用类,相当于VB的split函数。1.构造函数public StringTokenizer(String str)public StringTokenizer(String str, String delim)public StringTokenizer(String str, String delim, boolean转载 2014-06-26 14:28:10 · 1580 阅读 · 0 评论 -
构建一个跨机房的Hadoop集群,有非常多的技术难点(颠覆你以往的认知)
本文作者罗李,花名鬼厉,阿里分布式团队创建之初的第一批员工,从事分布式计算、分布式存储和Hadoop系统的研发,目前负责分布式存储团队的所有技术和管理。转载 2014-05-23 16:42:32 · 7579 阅读 · 0 评论 -
Hadoop备战:RPC机制
第一部分:什么是RPC RPC (Remote Procedure Call Protocol) – 远程过程协议调用 。通过 RPC 我们可以从网络上的计算机请求服务,而不需要了 解底层网络协议。 Hadoop 底层的交互都是通过 rpc 进行的。例 如: datanode 和 namenode 、 tasktracker和 jobtracker 、 secondar转载 2014-05-23 15:17:43 · 681 阅读 · 0 评论 -
虚拟化实践:云桌面安装
虚拟机工程实践:虚拟桌面云的简单安装原创 2014-05-25 11:16:21 · 6257 阅读 · 0 评论 -
hadoop下运行多个SecondaryNameNode的配置
光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间。对于hadoop进程中 ,要配置好并正确的使用 snn转载 2014-05-26 18:48:05 · 885 阅读 · 0 评论 -
hadoop-2.6.0基准测试
hadoop-2.6.0基准测试转载至:http://blog.itpub.net/25854343/viewspace-1425183/分类: Hadoop1.测试程序的帮助信息[hadoop@tong1 hadoop-2.6.0]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.转载 2015-04-22 11:29:34 · 1517 阅读 · 0 评论