Hadoop
文章平均质量分 93
# Hadoop
学要无止尽
任职于达摩院自动驾驶实验室;负责自动驾驶云端计算的架构和研发;
展开
-
hadoop如何分发本地的jar文件
一般情况下,我们会使用下面的命令来运行一个hadoop任务:hadoop jar abc.jar arg0 arg1 ...这个命令实际上是转化成下面的命令来运行的java org.apache.hadoop.util.RunJar abc.jar arg0 arg1 ...在RunJar中,会读取abc.jar文件,然后尝试从manifest中提取"Main-Class"转载 2013-02-21 18:03:37 · 631 阅读 · 0 评论 -
Hadoop Namenode 数据
简单来讲,NameNode就是HDFS的大脑,任何客户端或者DataNode的数据迁移、目录操作都是由NameNode来完成的。 再了解了NameNode会干什么事情之后,最好深入的办法就是来看NameNode有哪些重要的数据结构,每个数据结构都干什么事情。 我们提到NameNode主要是维护文件在哪里这个映射关系。故而主要包含的内容是:转载 2013-06-04 17:10:50 · 1530 阅读 · 0 评论 -
hadoop kerberos 安全机制
1、 hadoop的安全性是很弱的,只提供类似linux文件系统的帐户权限验证,而且可以通过简单的手段冒充用户名,如果有恶意用户,直接冒充为hadoop的super用户,那整个集群是很危险的。hadoop支持kerberos,希望可以通过kerberos,限制恶意用户伪造用户。预研过程中,发现kerberos生成证书和配置的步骤相当繁琐,首次配置也可以接受,但是对于原创 2013-06-04 15:17:03 · 1466 阅读 · 0 评论 -
Hadoop Mapreduce 2.0 Yarn
简介: 本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn 框架相对于原框架的差异及改进;并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 hadoop 程序的方法。 读者通过本文中新旧 hadoop map-reduce 框架的对比,更能深刻理解新的 yarn 框架的技术原转载 2013-05-30 10:59:25 · 997 阅读 · 0 评论 -
Hadoop 管理
第一部分:HDFS管理命令行工具•HDFS文件系统检查工具FSCK•用法:hadoop fsck [ GENERIC_OPTIONS] [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]•命令选项描述检查的起始目录。•-move移动受损文件到/lost转载 2013-09-03 11:02:11 · 1008 阅读 · 0 评论 -
带索引的mapReduce
之前我们跑mapreduce,对某些维度进行统计,都是暴利方式的遍历,有些时候,我们仅仅想扫描原始数据的一部分,或者仅仅是其中的一列,这些数据可能仅仅是原始数据的十分之一,百分之一,那么暴利扫描太不可取了。 回想下我们之前使用数据库的场景,数据库在扫描的时候通常是利用一些索引, 而并非全表扫描,故mapReduce 程序也可以借助这一特点,先创建索引,然后在索引上的进一步分析,防转载 2013-09-22 12:38:09 · 842 阅读 · 0 评论 -
hadoop性能调优笔记
Hadoop调优mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will be run simultaneously by a task tracker. 我的理解:一个tasktracker最多可以同时运行的map任务数量 默认值转载 2013-10-21 17:00:15 · 900 阅读 · 0 评论 -
HADOOP MR架构分析 JobTracker 和 TaskTracker
HADOOP 中 MR架构 是基于网络的架构。其中有两个比较重要的类:JobTracker 和 TaskTracker,JobTracker 和 TaskTracker 是一对多的关系, 多个 TaskTracker主动地向JobTracker发送请求(称作heartbeat),JobTracker接收到请求后,要完成一个最重要的工作就是为该TaskTracker分配一个actions列表,这里面原创 2013-10-21 17:14:12 · 1130 阅读 · 0 评论 -
Hadoop安全机制介绍 MR V1
1.背景1.1 共享Hadoop集群当前大一点的公司都采用了共享Hadoop集群的模式,这种模式可以减小维护成本,且避免数据过度冗余,增加硬件成本。共享Hadoop是指:(1)管理员把研发人员分成若干个队列,每个队列分配一定量的资源,每个用户或者用户组只能使用某个队列中得资源;(2)HDFS上存有各种数据,有公用的,有机密的,不同的用户可以访问不同的数据。共享集群类似于云计算或者云存储转载 2013-12-10 10:41:23 · 749 阅读 · 0 评论 -
Hadoop Kerberos安全机制介绍
1. 背景在Hadoop1.0.0或者CDH3 版本之前, hadoop并不存在安全认证一说。默认集群内所有的节点都是可靠的,值得信赖的。用户与HDFS或者M/R进行交互时并不需要进行验证。导致存在恶意用户伪装成真正的用户或者服务器入侵到hadoop集群上,恶意的提交作业,修改JobTracker状态,篡改HDFS上的数据,伪装成NameNode 或者TaskTracker接受任务等。 尽管在转载 2013-12-10 10:50:10 · 829 阅读 · 0 评论 -
Hadoop 2.0 (YARN)中的安全机制概述
写在前面安全管理是Hadoop中最复杂的、最难懂和最晦涩的模块,涉及到Hadoop的各个分支和每个分支的各个服务与组件,为了方便大家详细了解Hadoop内部的安全机制实现和各个验证流程,Apache正在编写一个文档,具体可参考HADOOP-9621,注意,附件中的几个pdf不是最新的,想要查看最新文档,可查看google doc上这个链接:Hadoop YARN Security转载 2013-12-10 11:41:31 · 4550 阅读 · 0 评论 -
kerberos安装配置
安装步骤: 1.下载krb5-1.9 http://web.mit.edu/kerberos/dist/krb5/1.9/krb5-1.9-signed.tar 2.解压 tar -xvf krb5-1.9.signed.tar 生成krb5-1.9.tar.gz 和krb5-1.9.tar.gz.asc 继续解压tar zxvf krb5-1.9.tar.gz转载 2013-12-10 15:16:23 · 3067 阅读 · 0 评论 -
Using the CDH 5 Maven Repository
If you want to build applications or tools with the CDH 5 components and you are using Maven or Ivy for dependency management, you can pull the CDH 5 artifacts from the Cloudera Maven repository. The原创 2014-06-09 18:17:04 · 2947 阅读 · 0 评论 -
HDFS 总体介绍(一)
一直以来对hadoop相关系列的学习都是较为零散的,不成体系。没有经过自己总结和沉淀的资料也很难长久的消化和在工作中实际运用。故而也希望通过这样系列的方式对所学习,所了解的资料进行总结。HDFS(Hadoop Distributed File System)顾名思义,是hadoop的分布式文件系统。HDFS是hadoop的一个子项目。Hadoop的名字在这里也提一下,是作者小孩很喜转载 2013-06-04 17:00:36 · 694 阅读 · 0 评论 -
hadoop自带的存取小文件存取解决方案
现实场景;在系统中,存在大量的小文件存取,比如图片文件,一般在几M以内, 1),但是HDFS默认block大小是64M,如果直接存取在Hadoop中,将极大的消耗namenode的资源。直接放在hadoop文件系统中,大多只是做归档分析用,所以,我们就想能不能定期归档。 2),放在HBase中,由于Hbase的value最大长度是64KB,而很多小文件又大过这转载 2013-06-04 16:44:09 · 839 阅读 · 0 评论 -
Hadoop JobControl Job迭代
如果MapReduce中需要用到多个job,而且多个job之间需要设置一些依赖关系,比如Job3需要依赖于Job1和Job2,这就要用到JobControl,具体的用法如下:JobControl jbcntrl=new JobControl(“jbcntrl”);jbcntrl.addJob(job1);jbcntrl.addJob(job2);jbcntrl.addJob(job3);j原创 2013-06-04 14:41:49 · 1699 阅读 · 0 评论 -
hadoop terasort
1. map reduce 和hadoop起源。MapReduce借用了函数式编程的概念,是Google发明的一种数据处理模型。因为Google几乎爬了互联网上的所有网页,要为处理这些网页并为搜索引擎建立索引是一项非常艰巨的任务,必须借助成千上万台机器同时工作(也就是分布式并行处理),才有可能完成建立索引的任务。 所以,Google发明了MapReduce数据处理模型,而且他们还就此转载 2013-03-13 18:17:29 · 2233 阅读 · 0 评论 -
hadoop Secondary namenode
先了解几个知识点:一、dits和fsimage 首先要提到两个文件edits和fsimage,下面来说说他们是做什么的。集群中的名称节点(NameNode)会把文件系统的变化以追加保存到日志文件edits中。当名称节点(NameNode)启动时,会从镜像文件 fsimage 中读取HDFS的状态,并且把edits文件中记录的操作应用到fsimage,也就是合并到fsimag原创 2013-03-15 15:58:10 · 2322 阅读 · 0 评论 -
海量数据的二度人脉挖掘算法(Hadoop 实现)
原创博客,转载请注明:http://my.oschina.net/BreathL/blog/75112 最近做了一个项目,要求找出二度人脉的一些关系,就好似新浪微博的“你可能感兴趣的人” 中,间接关注推荐;简单描述:即你关注的人中有N个人同时都关注了 XXX 。 在程序的实现上,其实我们要找的是:若 User1 follow了10个人 {User3,U转载 2013-03-15 18:03:36 · 1002 阅读 · 0 评论 -
基于Hadoop的并行数据挖掘算法工具箱——Dodo
1.dodoWeka是由新西兰Waikato大学研发的数据处理和知识发现软件包。其可以实现数据预处理、聚类、分类、回归、特征选择、可视化等各种数据挖掘的任务。Weka被广泛用于各种数据挖掘任务中算法的评估。但其中数据挖掘算法的实现是基于单机实现的。与Weka不同的是,Apache组织基于Hadoop平台的,采用MapReduce计算模型,实现大量机器学习算法的并行化,并将其封装在Mahout项原创 2013-03-21 11:14:41 · 1862 阅读 · 0 评论 -
hadoop 安装 和 ssh 服务
1.hadoop安装 目标是为构造一个运行在多台机器上的Hadoop集群提供指南,因此所述的安装均面向多台机器。在单台机器上安装Hadoop非常简单,在获取Hadoop之后(通常是一个压缩包),解压缩到特定目录即可。由于Hadoop是通过ssh服务对多个节点进行管理和同步,因此要求这些节点具有一个相同的帐号,而且Hadoop的部署目录结构都相同,为实现此要求,我们按照以下方式安装Hadoop原创 2013-04-10 10:16:00 · 1339 阅读 · 0 评论 -
JobTracker和TaskTracker
MapReduce job的管理有两种:TaskTracker 和JobTrackerTaskTracker ——map和reduce任务的执行JobTracker ——map和reduce任务的接受,监控和管理TaskTracker 的分布式任务JobTracker 对应于 NameNodeTaskTracker 对应于 DataNodeDataNode 和Nam转载 2013-03-28 15:15:01 · 865 阅读 · 0 评论 -
Hadoop 集群配置(最全面
通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\官方地址:(http://hadoop.apache.org/common/docs/r0.19.2/cn/cluster_setup.html)1 先决条件确保在你集原创 2013-04-28 11:01:18 · 669 阅读 · 0 评论 -
Hadoop中Mapper类的setup()函数在什么地方调用
经过跟踪hadoop源码发现,Mapper类的setup()函数在Mapper类的run()函数中被调用。向hadoop提交job后,hadoop会在MapTask的runNewMapper()或者runOldMapper()函数中使用反馈机制实例化具体的Mapper子类,然后调用这个对象的run()函数,其中setup()函数就在这个函数的开始被调用,因为hadoop会向setup()函转载 2013-04-28 09:36:04 · 982 阅读 · 0 评论 -
Hadoop中如何正确编写继承自Writable借口的子类
Hadoop中可以编写自己的类,用作hadoop job的key或者value类型,自己编写的类要实现借口Writable。我编写了一个HttpContent类,主要用于保存爬取网页的源码,返回状态和编码格式信息,他在mapper中别实例化保存网页内容,然后传输到reducer中被使用,在编写中遇到了一些问题:(1)首先是没有编写默认的构造函数类,因为java中的反馈机制需要一个参原创 2013-04-28 09:38:22 · 667 阅读 · 0 评论 -
eclipe hadoop 开发环境搭建
1、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz 1.2 Windows开发简介 Java版本:jdk-6u31-windows-i586.exe Win系统:Windows 7 旗舰版 Ec转载 2013-05-03 13:13:15 · 956 阅读 · 0 评论 -
eclipse 调试 mapreduce 程序
因为Map/Reduce程序会被打成一个jar并拷到TaskTracker机器上(单独的进程)并开一个Child进程来跑JVM的,配置加到bin/下的脚本都是针对hadoop本身的进程,正确的配置如下:在conf/mapred-site.xml中添加以下配置项: mapred.child.java.opts -Xmx200m -Xdebug -Xru原创 2013-05-03 22:36:53 · 1359 阅读 · 0 评论 -
Hadoop DistributedCache
1、DistributedCache In Hadoop此篇文章主要是前一篇的后续,主要讲Hadoop的分布式缓存机制的原理与运用。分布式缓存在MapReduce中称之为DistributedCache,它可以方便map task之间或者reduce task之间共享一些信息,同时也可以将第三方包添加到其classpath路径中去。Hadoop会将缓存数据分发到集群的所有准备启动的转载 2013-06-04 14:00:43 · 1205 阅读 · 0 评论 -
使用Ambari快速部署Hadoop大数据环境
前言做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文着重来讲解下Ambari,这个新的Apache的项目,旨在让大家能够方便快速的配置和部署Hadoop生态圈相关的组件的环境,并提供维护和监控的功能.作为新手,我讲讲我自己的学习经历,刚刚开始学习的时候,当然最简单的 Google 下Hadoop ,然后下载相关的包,在自己的虚拟机(Ce转载 2015-03-12 13:45:34 · 609 阅读 · 0 评论