![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop 自学指南
文章平均质量分 83
holo_hai
每天积累!
展开
-
hadoop 自学指南一之安装hadoop
一、前言 a) 本人是菜鸟,不生产代码,大自然的搬运工。 二、环境准备 a) Linux版本:Ubuntu14.04 b) Vmware c) secureCRT d) 有志于大数据程序员(important) 三、源码准备 下载http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-1.2.1/ Bin和源码包都下载下来原创 2015-09-05 20:11:35 · 485 阅读 · 0 评论 -
hadoop 自学指南八之Hive(2)
一、前言 hive UDF 二、Hive 常用的函数 2.1、关系操作符 Operator Operand types Description A = B All primitive types TRUE if expression A is equal to expression B otherwis原创 2015-09-23 23:58:21 · 659 阅读 · 0 评论 -
hadoop 自学指南八之Hive(1)
一、前言 什么是hive?Hive 数据仓库工具,可以把hadoop下原始结构化数据变成hive中表看成sql->Map-Reduce的映射器,提供shell,jdbc/odbc接口 他为数据仓库的管理提供了多功能:数据ETL工具,数据存储管理和大型数据集查询和分析能力 二、Hive 数据存储 hive 的数据存储建立在hadoop 的hdfs 基础上,hive 的每个对应的分区对应原创 2015-09-22 17:25:53 · 680 阅读 · 0 评论 -
hadoop 自学指南六之IO /HDFS 操作API
FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class); 一、前言 I/O相关的包如下:.apache.hadoop.io.* ,以下介绍一些常用的hdfs的API操作 二、HDFS API package hadoop.utils; import java.io.IOException; import原创 2015-09-20 21:29:35 · 556 阅读 · 0 评论 -
hadoop 自学指南七之hadoop2.x 特性
一、hadoop 2.x 产生背景: --hadoop 1.x hdfs 和 MapReduce 在高可用,扩展性 --hdfs 存在问题 nameNode 单点故障 nameNode 压力过大 --MapReduce JobTracker 访问过大,影响系统扩展性 难以支持MapReduce之外的计算框架,s原创 2015-09-20 23:58:24 · 613 阅读 · 0 评论 -
hadoop 自学指南五之MapReduce工作机制
一、前言 从源码的角度剖析MapReduce 作业的工作机制 二、MapReduce 执行流程 分析如下: 整个过程包含4个独立的实体 客户端: 提交MapReduce 作业 JobTracker: 初始化作业、分配作业。与TaskTracker通信 TaskTracker:保持与JobTracker的通信,在分配的数据片段上执行MapReduce任务 HDFS:保存数据原创 2015-09-20 16:05:59 · 395 阅读 · 0 评论 -
hadoop 自学指南十一之Zookeeper
一、前言 Zookeeper是一个为分布式应用所设计的开源协议服务。它可以为用户提供同步、配置、管理、分组和命名等服务。用户可以使用Zookeeper提供的实现一致性、组管理、Leader选举及某些协议。 二、zooKeeper特点 简单的、丰富的组件(分布式队列、分布式锁和同级选举)、高可用、松耦合、资源库 Zookeeper可以看成一个具有高可用的文件系统,但这个文件系统没有文原创 2015-10-08 11:45:44 · 358 阅读 · 0 评论 -
hadoop 自学指南十之Pig
一、前言 Pig 提供一个支持大规模数据分析的平台。Pig的基础结构包括一个产生一个MapReduce的程序的编辑器,语言层包括一个Pig Latin的文本语言 Pig可以看做hadoop 的客户端软件,可以连接到hadoop集群进行数据分析工作 Pig方便不熟悉java的用户,使用一种较为简便的类似SQL的面向数据流语言pig latin 进行数据处理 Pig latin 可以进行排序、原创 2015-10-04 21:05:55 · 354 阅读 · 0 评论 -
hadoop 自学指南四之常见MapReduce案例
一、前言 介绍MapReduce 一些常见的经典案例 二、去重 思想:利用MapReduce 的shuffle过程,合并相同的key 特性,可实现。 核心:Map ->context.write(new Text(line),new Text("")) ; Reduce->context.write(key,new Text("")) package hadoop.v5;原创 2015-09-14 17:20:55 · 581 阅读 · 0 评论 -
hadoop 自学指南九之HBase
一、前言 Hbase 是Apache hadoop 的数据库,能够提供随机、实时的读写访问,具有开源,分布式,可扩展性及面向列存储特点。 特性如下:及模块的可扩展性,一致性读写,可配置的表自动分割策略,RegionServer 自动故障恢复,便利地备份MapReduce 作业的基类,便于客户端访问的javaAPI 为实时查询提供块缓存和Bloom Filter,可通过服务器端进行查询下推预测原创 2015-09-28 23:50:39 · 364 阅读 · 0 评论 -
Hbase 问题汇总
1、ERROR: org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet 解决:将hadoop1.2.1下的hadoop-core-1.2.1.jar拷贝到hbase-0.98.7-hadoop1/lib下,两文件大小不一致,以hadoop1.2.1为准; 2、启动hbase she原创 2015-09-26 23:38:53 · 488 阅读 · 0 评论 -
Hadoop 问题汇总
1、关于Hadoop数据块Miss在页面提示的问题 这个文档转至台湾的已了论坛,地址是:http://hadoop.nchc.org.tw/phpbb/viewtopic.php?f=4&t=1938 請教一個hadoop運行維護中的問題: 背景: 調整hadoop配置: 1. hadoop的dfs.replication之前設置為1,現在改為3; 2原创 2015-09-26 23:11:28 · 290 阅读 · 0 评论 -
hadoop 自学指南三之WordCount解析(3)
一、前言 在某是情况下,Map函数会产生许多中间数据,而且都是重复的,为了减少reducer的输入提交reducer性能,我们往往需要一个中间程序来合并Map的输入,这时候可以利用 combinerclass来有效减少网络传输的数据量。 二、WordCount 的CombinerClass 原理很简单:例如有一个map中(”hello",1)有10000个,传输到reducer端的确没什么原创 2015-09-06 18:29:46 · 462 阅读 · 0 评论 -
hadoop 自学指南三之wordcount 解析(1)
一、前言 针对前面的wordcout的程序作一些解读 二、wordcount 运行过程 package hadoop.v3; import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.fs.Path; import or原创 2015-09-06 01:22:47 · 539 阅读 · 0 评论 -
hadoop 自学指南三之WordCount解析(2)
一、前言 自从0.20.2版本开始,hadoop 提供了一个新的API,新的API在org.apache.hadoop.mapreduce中,旧的api在org.apache.hadoop.mapred中 二、新版的wordCount package hadoop.v3; import java.io.IOException; import java.util.StringTokenize原创 2015-09-06 02:47:50 · 394 阅读 · 0 评论 -
hadoop 自学指南二之开发环境搭建
一、前言 从一个简单的程序观察hadoop 的运行过程 二、window 下hadoop 的开发环境搭建 环境准备: hadoop 1.2.1 eclipse Version: Mars Release (4.5.0) hadoop-eclipse-plugin-1.2.1(网上有许多,不再重复提供) hadoop-eclipse-plugin-1.2.1放到dropins 启动ec原创 2015-09-05 21:42:41 · 605 阅读 · 0 评论 -
hadoop 自学指南十二之mahout
一、前言 mahout 是基于一个Hadoop的机器学习和数据挖掘的分布式计算框架。 目前Apache Mahout项目主要包括下面5个部分 频繁模式挖掘:挖掘数据中频繁出现的项集 聚类:将诸如文本、文档之类的数据分局相关的组 分类:利用已经存在的分类训练器,对未分类的文档进行分类 推荐引擎(协同过滤):获得用户的行为并从中发现用户可能喜欢的事物 频繁子项挖掘:利用一个项集(查询记录原创 2015-10-18 17:13:24 · 589 阅读 · 0 评论