![](https://img-blog.csdnimg.cn/20190927151132530.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据之Hadoop
记录一下个人心得
我亦无它
唯手熟尔
展开
-
Flume自定义组件
1 自定义MysqlHdfsSourcepackage com.atguigu.custom;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.EventDeliveryException;import org.apache.flume.PollableSourc...原创 2020-03-15 20:36:36 · 208 阅读 · 0 评论 -
Hadoop生态系统之Hive
本文将从Hive的大方向上及Hive细节使用这两个方向来阐述:1、Hive是什么?hive在Hadoop生态系统中充当什么角色?为什么需要学习使用Hive2、如何使用Hive及代码演示一 宏观剖析1 Hive是个啥?摘自百度百科hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数据文件映...原创 2020-03-12 22:38:47 · 1381 阅读 · 0 评论 -
hadoop生态系统之MR详解
笔者将以第一人称视角向各位阐述MR,从两个大方向描述MR旨在将自己所学所会融进这套知识体系。1. 站在系统设计的角度讲讲MR在hadoop生态系统中上下游扮演的角色起到了什么作用及为什么需要MR2.技术性细节,MR的整个工作流程如有不到之处烦请指正一 宏观剖析1 MR是什么?MapReduce是一种计算模型,用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生...原创 2020-03-12 21:40:34 · 3402 阅读 · 2 评论 -
HDFS常用Shell命令
本篇文章只是简单阐述一下HDFS中常用命令, 在实际开发中可使用 bin/hadoop fs查看命令详情使用HDFS基本语法: bin/hadoop fs OR bin/hdfs dfs 注:为帮助快速理解并使用本文中使用T表示target基本命令 1.启动hadoop集群 HDFS相关组件: sbin/start-dfs.sh YARN相关组件: sbin/start-ya...原创 2020-02-20 17:32:43 · 306 阅读 · 0 评论 -
HDFS客户端操作
1. HDFS客户端环境搭建1.1 安装hadoop1.安装对应的编译后的hadoop包到非中文路径下 1.1 这里简单阐述一下在搭建环境时为什么hadoop需要重新编译源码 答: hadoop是用java写的,但是某些操作不适合用java实现,所以用的是c/c++的动态库(本地库),所以需要根据不同的处理器架构,重新编译,他们以库的形式提供接口供上层调用。2.配置HADOOP_HOM...原创 2020-02-20 17:29:49 · 174 阅读 · 0 评论 -
Hadoop完全分布式集群搭建
1. 克隆虚拟机母机信息:**为了描述的过程能尽可能通俗易懂, 笔者将集群节点暂且命名为: slave1,slave2.slave3** linux版本: CentOs6.8 jdk版本: jdk1.8.0_144 hadoop版本: hadoop2.7.2 虚拟机母机Master配置: ① 防火墙关闭 ② 设置静态ip 注: 如何设置静态ip及如...原创 2020-02-20 17:16:14 · 258 阅读 · 0 评论