
Hadoop 实战
总所周知,2005年发布的 Hadoop 解决了大数据的存储和计算问题,已成为大数据处理的事实标准。围绕 hadoop 的分布式文件系统(HDFS),分布式计算框架(MapReduce),有开发了一系列的框架(hadoop 生态圈)来简化大数据的存储和计算问题。
五道口纳什
wx公众号/B站:五道口纳什
展开
-
CentOS hadoop 伪分布式安装步骤
环境的准备 设置ip地址采用host only网络连接方式,桌面右键网络连接,选择edit connections,设置静态ip(vmnet1保持一致) 执行命令 service network restart(重启网络服务,使ip生效) 验证: ifconfig 关闭防火墙执行命令 service iptables stop 验证: service iptables st原创 2016-03-03 21:16:38 · 1629 阅读 · 0 评论 -
CentOS hadoop 分布式集群的搭建
假定集群中的全部节点,彼此之间已实现免密码登录(共An−1nA_n^{n-1}对关系),节点都配置好hadoop(每个节点上的伪分布式已搭建完毕,伪分布式的搭建参见 CentOS hadoop 伪分布式安装步骤 )和jdk,以及环境变量的设置。环境设置完毕之后,此时我们开始集群的搭建与部署。 (1)主从节点的确定,也即分布式集群结构的确定 (2)修改主节点中 hadoop 的配置文件,也即/conf原创 2016-03-05 18:18:13 · 1299 阅读 · 0 评论 -
hadoop 分布式切换为伪分布式(单机)
CentOS hadoop 伪分布式安装步骤 CentOS hadoop 伪分布式安装步骤 我们知道 hadoop 伪分布式向分布式转换时,主要修改hadoop 的两个配置文件, conf/slaves:维护从节点(负责启动datanode、TaskTracker); conf/masters:指定启动secondarynamenode的主机名; 可见当我们试图从分布式向伪分布式转换时,需要修改的也原创 2016-03-07 17:13:57 · 2860 阅读 · 0 评论 -
Hive 基础及安装
Hive 基础 (1)在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。a) 所谓 hadoop 中的数据,是指存储在 hdfs 文件系统上的数据,MapReduce用于数据处理 b) hive 的最大优势便在于其对数据管理和数据查询功能的支持; (2)本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中原创 2016-03-10 14:53:04 · 1307 阅读 · 0 评论 -
SQOOP 基础及安装
SQOOP 是hadoop生态圈中使用较为简单的一款产品; (1)SQOOP 命令是转换为 map 任务执行的,再次可见hadoop(hdfs、MapReduce)居于hadoop生态圈的核心位置 (2)关系型数据库向hadoop的转换应当是双向的; SQOOP 用于对数据进行导入导出的, (1)把 MySQL、Oracle 等数据库中的数据导入到 HDFS、Hive、HBase中 (2)把H原创 2016-03-12 10:59:34 · 1158 阅读 · 0 评论 -
SQOOP——MySQL 和 HDFS 的桥梁
将数据从 mysql import 到 HDFS 中我们要使用 mysql 的话,意味着要对其进行连接,自然使用 JDBC(Java Data Base Connectivity)。在之前配置 hive 的 mysql 时,我们已将 mysql-connector-java-5.1.10.jar 拷贝到 hive/lib 目录下,[root@hadoop0 ~]# cp $HIVE_HOME/lib原创 2016-03-12 16:36:27 · 1427 阅读 · 0 评论 -
如何将 hadoop1.1.2/1.2.1 源码关联到 Eclipse
最为关键的一点,jre 的版本不宜过高,有一点明确的是,jre6 是可用的,jre8 是出编译错误的。step 1:新建工程,设置 jre 的版本 并下调编译级别: step 2:拷贝 hadoop 源码到srchadoop 的源码我们主要关心的是hadoop 的 src 目录下的 core、hdfs、mapred 三个文件夹下的内容:我们将其拷贝到 hadoop-1.1.2 工程的原创 2016-03-14 12:30:43 · 1571 阅读 · 0 评论 -
MapReduce 原理及执行过程
(1)MapReduce 是一种分布式计算框架,由 Google 提出,主要用于搜索领域,以解决海量数据的计算问题。(分布式存储和分布式计算发轫于 Google 这样的公司是不足为奇的) (2)MapReduce 由两个阶段组成:Map (开始)和 Reduce(结束),用户只需实现 map() 和 reduce() 两个函数,即可实现分布式计算,十分便捷 (3)这两个函数的形参是 key、valu原创 2016-03-15 08:38:25 · 4606 阅读 · 0 评论 -
WordCount——MapReduce 实例入门
本文我们从一个简单的实例出发,统计文本中不同单词出现的次数,来讲述 MapReduce 的执行流程。考虑如下的文本信息(文件名为hello):hello you hello meMapReduce 工作流程 (1) [K1, V1]:将输入文本的每一行,解析成一个 key、value 对键:当前文本行的首地址,则第一行的首地址为0,则第二行的首地址为10(第一行的换行也站一个字节)。值:当前文本行文原创 2016-03-15 10:04:00 · 1470 阅读 · 0 评论 -
hadoop 2.6 伪分布式的安装
我们选择安装的版本为: hadoop-2.6.0-cdh5.4.0.tar.gz。一、下载、解压二、修改配置文件配置文件在 hadoop-2.6.0-cdh5.4.0/etc/hadoop/ 路径下: (1)hadoop-env.shexport JAVA_HOME=/usr/local/jdk (2)core-site.xml References[1] Hadoop MapReduce Nex原创 2016-03-18 19:42:57 · 1224 阅读 · 0 评论