hadoop学习
AC_great
Young For You
展开
-
Hadoop源码分析之心跳机制
一、心跳机制 1、hadoop集群是master/slave模式,master包括Namenode和Jobtracker,slave包括Datanode和Tasktracker。 2、master启动的时候,会开一个ipc server在那里,等待slave心跳。 3、slave启动时,会连接master,并每隔3秒钟主动向master发送一个“心跳”,这个时间可 以通过”hea转载 2015-09-12 22:21:11 · 832 阅读 · 0 评论 -
Hadoop,MapReduce,HDFS面试题
今天发这个的目的是为了给自己扫开迷茫,告诉自己该进阶了,以下内容不一定官方和正确,完全个人理解,欢迎大家留言讨论1.什么是hadoop答:是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。 hadoop的核心主要包含:HDFS和MapReduce HDFS是分布式文件系统,用于分布式存储海量数据。 MapReduce是分布式数据处原创 2015-08-23 01:04:13 · 10125 阅读 · 1 评论 -
HDFS的体系架构
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。 HDFS的体系架构整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。HDFS采用主从(Maste原创 2015-08-12 17:14:27 · 928 阅读 · 0 评论 -
HDFS原理
有一个文件FileA,100M大小。Client将FileA写入到HDFS上。HDFS按默认配置。HDFS分布在三个机架上Rack1,Rack2,Rack3。 a. Client将FileA按64M分块。分成两块,block1和Block2;b. Client向nameNode发送写数据请求,如图蓝色虚线①------>。c. NameNode节点,记录block信息。并返原创 2015-08-18 01:16:05 · 822 阅读 · 0 评论 -
hadoop工程日志
log4j.propertieslog4j.rootLogger=info, stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.ConversionP原创 2015-09-06 16:06:47 · 579 阅读 · 0 评论 -
Google矩阵及PageRank的求解方法
1. Google矩阵 假设有A,B,C,D,E五个网页,其中 1)A网页有链接指向B,C,D 2)B网页有链接指向A,E 3)C网页有链接指向A,E 4)D网页有链接指向C 5)E网页有链接指向A,C 请写出这个网页链接结构的Google矩阵 这样,我们就得到了Google的初始矩阵L(也有资料叫这转移矩阵)。PageRank的求原创 2015-09-04 13:01:14 · 5391 阅读 · 0 评论 -
[Hadoop]使用DistributedCache进行复制联结
package com.yc.test3;import java.io.IOException;import java.util.HashMap;import java.util.HashSet;import java.util.Scanner;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FS原创 2015-09-02 18:56:31 · 683 阅读 · 0 评论 -
eclipse下安装Hadoop插件
whereis 文件名 结果:产生文件路径 find / -name 文件名 结果:产生文件路径 hadoop fs -mkdir hadoop fs -put 文件路径名 主机下的文件路径名 hadoop fs -ls / 查看当前路径下的所有文件eclipse下安装hadoop插件复制hadoop目录下的hadoop原创 2015-08-05 15:22:53 · 1308 阅读 · 0 评论 -
我是如何向老婆解释MapReduce的?
昨天,我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利,听众们都能够理解MapReduce的概念(根据他们的反馈)。我成功地向技术听众们(主要是Java程序员,一些Flex程序员和少数的测试人员)解释了MapReduce的概念,这让我感到兴奋。在所有辛勤的工作之后,我们在Xebia印度办公室享用了丰盛的晚餐,然后我径直回了家。回家后,我的妻子(Supriya)问转载 2015-08-05 08:10:53 · 480 阅读 · 0 评论 -
hadoop的MR如何实现动态替换算法包
最近是用hadoop遇到些需求,要想抽离出reduce里面的某个算法包,从而能够动态改动算法(1)如何动态调用抽离出的算法包Jar这里就涉及到URLClassLoader的东西 loader = new URLClassLoader(new URL[]{ new URL(jarFile)转载 2015-08-14 18:21:47 · 1156 阅读 · 0 评论 -
Reduce侧联接
案例分析前提,了解其原理,以及术语术语部分: 1.Data Source:基本与关系数据库中的表相似,形式为:(例子中为CSV格式) Customers Orders 1,Stephanie Leung,555-555-5555 3,A,12.95,02-Jun-2008 2,Edward Kim,123-456-789原创 2015-08-26 21:23:13 · 916 阅读 · 0 评论 -
hadoop简单运行流程
Hadoop集群中分主节点master节点和slave节点,master节点监控slave节点。master和slave之间通过ssh协议进行通信。 master节点上部署有JobTracker和NameNode,当然也可以部署TaskTracker和DataNode。slave节点上部署TaskTracker和DataNode节点。JobTracker监控TaskTracker,原创 2015-07-31 00:02:42 · 1297 阅读 · 0 评论 -
hadoop之streaming(一)官网翻译
官网:Hadoop StreamingHadoop streaming is a utility that comes with the Hadoop distribution. The utility allows you to create and run Map/Reduce jobs with any executable or script as the mapper and/o翻译 2015-08-12 10:19:59 · 914 阅读 · 0 评论 -
hadoop 编程规范(hadoop专利分析)
网上有很多hadoop例子,但是不难发现,即使是一个wordcount都有很多不一样的地方,我们不可能总拿着别人的例子跑,所以自己要总结出一套规范,让api即使更新也能马上适应过来。这里也以hadoop 专利分析作为炮灰 右键新建map/reduce项目,然后点击项目右键Mapper,Reducer,MapperReduce Driver 并且在MapperReduce Driver 里填原创 2015-08-10 20:27:03 · 1538 阅读 · 0 评论 -
Hadoop(最新版ChainMapper链接MapReduce作业带原理分析)
package com.zzg.test1;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;public class MapClass1 extend原创 2015-08-24 00:38:58 · 2252 阅读 · 2 评论 -
hadoop倒排索引
1.前言 学习hadoop的童鞋,倒排索引这个算法还是挺重要的。这是以后展开工作的基础。首先,我们来认识下什么是倒拍索引: 倒排索引简单地就是:根据单词,返回它在哪个文件中出现过,而且频率是多少的结果。这就像百度里的搜索,你输入一个关键字,那么百度引擎就迅速的在它的服务器里找到有该关键字的文件,并根据频率和其他一些策略(如页面点击投票率)等来给你返回结果。这个过转载 2015-09-19 09:52:04 · 603 阅读 · 0 评论