hadoop
爱笑的T_T
工作
展开
-
在Windows 调试 Hadoop程序
转:http://blog.csdn.net/uq_jin/article/details/522351211、解压Hadoop到任意目录比如:D:\soft\dev\Hadoop-2.7.22、设置环境变量HADOOP_HOME:D:\soft\dev\hadoop-2.7.2HADOOP_BIN_PATH:%HADOOP_HOME%\binHADOOP_PREF转载 2016-12-24 14:21:13 · 6825 阅读 · 0 评论 -
hadoop-MapReduce
YARN只是负责资源调度管理。而MapReduce才是负责运算的家伙,所以YARN != MapReduceMapReduce概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是转载 2017-01-19 14:55:34 · 353 阅读 · 0 评论 -
hadoop2.4.1伪分布式搭建
1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMnet1 -> 属性 ->转载 2017-02-10 09:21:30 · 331 阅读 · 0 评论 -
基于zookeeper的hadoop HA实现
转:http://blog.csdn.net/everl_1/article/details/52303011非HA弊端HDFS集群的分布式存储是靠namenode节点(namenode负责响应客户端请求)来实现。在非HA集群中一旦namenode宕机,虽然元数据不会丢失,但整个集群将无法对外提供服务,导致HDFS服务的可靠性不高,这在实际应用场景中显然是不可行的。HA机制已知转载 2017-01-20 18:01:28 · 1184 阅读 · 0 评论 -
OutputFormat类——Hadoop
转:http://blog.csdn.net/u014470581/article/details/514983251、OutputFormat是一个用于描述MapReduce作业的输出格式和规范的抽象类,位于org.apache.Hadoop.mapreduce.OutputFormat<K, V>. Mapreduce框架依靠文件输出格式完成输出规范检查(如检查目录是否存在转载 2017-04-14 14:47:33 · 9279 阅读 · 0 评论 -
Hadoop中mapReduce处理过程详解
转:http://blog.csdn.net/jarvan_song/article/details/52289387为了说明这个问题,我们使用wordcount的处理过程来进行演示,演示图如下所示:为什么图片这么小,好伤心,给个连接自己下载原图:http://download.csdn.net/detail/jarvan_song/9610380转载 2017-04-14 15:44:43 · 513 阅读 · 0 评论 -
Mapreduce 整个工作机制图
转:http://www.aboutyun.com/thread-5641-1-1.html图中1:表示待处理数据,比如日志,比如单词计数图中2:表示map阶段,对他们split,然后送到不同分区图中3:表示reduce阶段,对这些数据整合处理。图中4:表示二次mapreduce,这个是mapreduce的链式,详细可以看让你真正明白什么是MapReduce组合式,迭代式,链式转载 2017-04-14 16:25:23 · 864 阅读 · 0 评论 -
split和block的区别以及maptask和reducetask个数设定
转:http://blog.csdn.net/qq_20641565/article/details/53457622split和block的区别:很多人可能认为在Hadoop中的split和block是一样的,可能是因为hadoop在默认情况下split的大小和hdfs文件分块大小是一样而被误导吧。下面来谈谈他们的区别和联系: 1.split是mapreduce中的概转载 2017-04-14 17:40:14 · 603 阅读 · 0 评论 -
工作流调度器azkaban
为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:转载 2017-04-22 14:52:37 · 1235 阅读 · 0 评论 -
sqoop数据迁移
qoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库工作机制将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中主要是对inputforma转载 2017-04-24 10:42:20 · 1091 阅读 · 0 评论 -
Hadoop-YARN(资源管理系统)
转:http://www.cnblogs.com/sy270321/p/4398703.html YARN总体上仍然是Master/Slave结构,在整个资源管理框架中,ResourceManager为Master,NodeManager为Slave,ResourceManager负责对各个NodeManager上的资源进行统一管理和调度。当用户提交一个应用程序时,需要提供一个用以跟踪和管理转载 2017-01-19 14:45:01 · 2128 阅读 · 0 评论 -
HDFS架构
HDFS架构NameNodeDataNodeSecondary NameNodeNameNode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。HDFS文件系统的元信息保存目录:hdfs-site.xml的dfs.name.dir属性如果这个参数设置为多个目录,那么这些转载 2017-01-19 13:58:20 · 300 阅读 · 0 评论 -
Flume 安装,简单测试
转:http://www.aboutyun.com/thread-8917-1-1.html解压tar -zxvf apache-flume-1.7.0-bin.tar.gz修改 flume-env.sh 配置文件,主要是JAVA_HOME变量设置# Enviroment variables can be set here.export JAVA_HOME=/usr/java转载 2017-02-09 17:28:16 · 3976 阅读 · 0 评论 -
Hadoop之——MapReduce job的几种运行模式
需要的jar包 \share\hadoop\common下的jar和其子目录下lib中的jar\share\hadoop\hdfs下的jar和其子目录下lib中的jar\share\hadoop\mapreduce下的jar和其子目录下lib中的jar\share\hadoop\yarn下的jar和其子目录下lib中的jarWordCountMapper.javapac转载 2016-12-26 20:35:23 · 18511 阅读 · 1 评论 -
Hadoop深入学习:Combiner
转:http://blog.csdn.net/cnbird2008/article/details/237882331、是在每一个map task的本地运行,能收到map输出的每一个key的valuelist,所以可以做局部汇总处理2、因为在map task的本地进行了局部汇总,就会让map端的输出数据量大幅精简,减小shuffle过程的网络IO3、combiner其实就是一个转载 2016-12-27 17:57:54 · 490 阅读 · 0 评论 -
hbase 安装部署
转:http://www.aboutyun.com/thread-10961-1-1.htmlhttp://blog.csdn.net/michaelzhou224/article/details/10579123HMaster的作用:为Region server分配region负责Region server的负载均衡发现失效的Region server并重新分配其转载 2017-02-05 17:54:56 · 556 阅读 · 0 评论 -
HBase Shell 常用命令及例子
转:http://blog.csdn.net/lifuxiangcaohui/article/details/40042117http://www.cnblogs.com/nexiyi/p/hbase_shell.html下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称转载 2017-02-06 14:29:18 · 337 阅读 · 0 评论 -
启动Hadoop时,DataNode启动后一会儿自动消失的解决方法
查看slaver1/2的logs,发现FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool (Datanode Uuid unassigned) service to localhost/127.0.0.1:9000java.io.I转载 2017-02-07 17:46:30 · 9149 阅读 · 1 评论 -
hive2.0版本整合hbase1.2.1
转:http://blog.csdn.net/wulantian/article/details/38111683 本文主要实现一下目标: 1. 在hive中创建的表能直接创建保存到hbase中。 2. hive中的表插入数据,插入的数据会同步更新到hbase对应的表中。 3. hbase对应的列簇值变更,也会在Hive中对应的表中变更。 4. 实现了多转载 2017-02-08 15:35:29 · 1380 阅读 · 0 评论 -
MapReduce编程之倒排索引的实现
转:http://www.cnblogs.com/aijianiula/p/3870664.html倒排索引简单地就是:根据单词,返回它在哪个文件中出现过,而且频率是多少的结果。这就像百度里的搜索,你输入一个关键字,那么百度引擎就迅速的在它的服务器里找到有该关键字的文件,并根据频率和其他一些策略(如页面点击投票率)等来给你返回结果。这个过程中,倒排索引就起到很关键的作用。---转载 2017-01-18 15:39:57 · 886 阅读 · 0 评论 -
hadoop 用MR实现join操作
a.txtid name 001 iphone6002 xiaominote003 mate7004 nubia005 meilanb.txtid orderid 001 00101001 00110002 01001...001 iphone6-->a 00101-->b 00110-->b转载 2017-01-18 15:57:02 · 610 阅读 · 0 评论 -
hadoop 序列化和排序,自定义分区
pom.xml UTF-8 2.7.3 org.apache.hadoop hadoop-client ${hadoop.version} org.apache.hadoop hadoop-common ${hadoop.version} org.apache.hadoop hadoop-hdfs转载 2017-01-18 15:26:25 · 782 阅读 · 0 评论 -
hive2.1.1安装部署
转:http://blog.csdn.net/zhongguozhichuang/article/details/52702476一、Hive 运行模式与 Hadoop 类似,Hive 也有 3 种运行模式:1. 内嵌模式将元数据保存在本地内嵌的 Derby 数据库中,这是使用 Hive 最简单的方式。但是这种方式缺点也比较明显,因为一个内嵌的 Derby转载 2017-01-22 15:30:16 · 11381 阅读 · 1 评论