Hadoop系列
云端笑猿
现实中的那些纷纷扰扰,都无非是过眼云烟;你在人生的战场上追名逐利,不得解脱;我在我的代码世界中,宁静致远,深藏功与名。
展开
-
Hadoop系列001-大数据概论
本人微信公众号,欢迎扫码关注! 大数据概论 1、大数据概念 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。 1Byt...原创 2018-12-01 13:59:20 · 1023 阅读 · 1 评论 -
Hadoop系列002-从Hadoop框架讨论大数据生态
本人微信公众号,欢迎扫码关注! 从Hadoop框架讨论大数据生态 1、Hadoop是什么 1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构 2)主要解决,海量数据的存储和海量数据的分析计算问题。 3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈 2、Hadoop发展历史 1)Lucene–Doug Cutting开创的开源软件,用java书写代码...原创 2018-12-01 14:02:49 · 390 阅读 · 0 评论 -
Hadoop系列003-Hadoop运行环境搭建
本人微信公众号,欢迎扫码关注! Hadoop运行环境搭建 1、虚拟机网络模式设置为NAT 2、克隆虚拟机 3、修改为静态ip 4、 修改主机名 5、关闭防火墙 1)查看防火墙开机启动状态 chkconfig iptables --list 2)关闭防火墙 chkconfig iptables off 6、在opt目录下创建文件 7、安装JDK 1)卸载现有jdk 查询是否安装java...原创 2018-12-01 14:04:24 · 921 阅读 · 0 评论 -
Hadoop系列004-Hadoop运行模式(上)
本人微信公众号,欢迎扫码关注! Hadoop运行模式 1、概述 1)官方网址 官方网站:http://hadoop.apache.org/ 各个版本归档库地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/ hadoop2.7.2版本详情介绍:http://hadoop.apache.org/docs/r2.7.2/ ...原创 2018-12-01 14:05:33 · 940 阅读 · 1 评论 -
Hadoop系列005-Hadoop运行模式(下)
本人微信公众号,欢迎扫码关注! Hadoop运行模式(下) 2.3、完全分布式部署Hadoop 1)分析: 1)准备3台客户机(关闭防火墙、静态ip、主机名称) 2)安装jdk 3)配置环境变量 4)安装hadoop 5)配置环境变量 6)安装ssh 7)配置集群 8)启动测试集群 2)操作 (1) 虚拟机准备 克隆三台干净的虚拟机 (2) 主机名设置 (3) s...原创 2018-12-01 14:06:39 · 329 阅读 · 0 评论 -
Hadoop系列006-HDFS概念及命令行操作
本人微信公众号,欢迎扫码关注! HDFS概念及命令行操作 一、HDFS概念 1.1 概念 HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。 HDFS的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。 1.2 组成 1)HDFS集群包括,NameNo...原创 2018-12-10 16:44:34 · 294 阅读 · 0 评论 -
Hadoop系列007-HDFS客户端操作
本人微信公众号,欢迎扫码关注! HDFS客户端操作 1 环境准备 1.1 Jar包准备 1)解压hadoop-2.7.2.tar.gz到非中文目录 注意1:如果使用WinRAR解压报错的话,就使用超级管理员权限打开DOS窗口,然后cd到解压包所在位置,执行start winrar x -y xxx.tar.gz命令,即可成功 注意2:使用对应平台下编译后的hadoop源码包,即win7系统使...原创 2018-12-10 16:45:45 · 270 阅读 · 0 评论 -
Hadoop系列008-HDFS的数据流
本人微信公众号,欢迎扫码关注! HDFS的数据流 1 HDFS写数据流程 1.1 剖析文件写入 1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。 2)namenode返回是否可以上传。 3)客户端请求第一个 block上传到哪几个datanode服务器上。 4)namenode返回3个datanode节点,分别为dn1、dn2、dn3。 5...原创 2019-01-10 18:33:44 · 256 阅读 · 0 评论 -
Hadoop系列009-NameNode工作机制
本人微信公众号,欢迎扫码关注! NameNode工作机制 1 NameNode & SecondaryNameNode工作机制 1.1 第一阶段:namenode启动 1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。 2)客户端对元数据进行增删改查的请求 3)namenode记录操作日志,更新滚动日志...原创 2019-01-24 14:16:57 · 132 阅读 · 0 评论