自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 HBase的集群环境搭建

HBase的集群环境搭建第一步:下载对应的HBase 安装包所有关于CDH版本的软件包下载地址如下:http://archive.cloudera.com/cdh5/cdh/5/HBase对应的版本下载地址如下:http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.14.0.tar.gz第二步:压缩包上传并解压将下载好的安装包...

2019-12-13 20:34:51 122

原创 大数据相关组件介绍及安装部署

一、 Apache Sqoop1、sqoop介绍:Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。 Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括:HDFS、Hive、Hbase等RDBMS体系包括:...

2019-12-06 20:24:16 336

原创 (二)HIve的安装部署

一、derby版hive直接使用1、解压hivecd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C …/servers/2、直接启动 bin/hivecd …/servers/cd hive-1.1.0-cdh5.14.0/bin/hivehive> create database mytest;...

2019-11-22 21:21:03 163

原创 (一)HIve基本概念

1.1、Hive简介什么是Hive?Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具。为什么使用Hive? 直接使用hadoop所面临的问题人员学习成本太高...

2019-11-22 17:22:29 123

原创 MapReduce

什么是计算框架?是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。用于去解决或者处理某个复杂的计算问题。2.什么是并行计算框架?是指为更快的计算某项任务或某项工作,将计算程序分发到多台服务器上,使每个服务器计算总任务的一部分,多台服务器同时计算的框架。3.理解MapReduce思想MapReduce由两部分组成,分别是Map 和Reduce两部分。MapReduce的...

2019-11-13 10:32:22 107

原创 HDFS新增节点与删除节点

一、准备新的节点第一步:复制一台新的虚拟机出来第二步:修改mac地址以及IP地址第三步:关闭防火墙,关闭selinux第四步:更改主机名第五步:四台机器更改主机名与IP地址映射第六步:node04服务器关机重启并生成公钥与私钥第七步:node04安装jdk第八步:解压Hadoop安装包第九步:将node01关于Hadoop的配置文件全部拷贝到node04二、服役新的节点第一步...

2019-11-06 20:15:45 213

原创 HDFS【2】

HDFS文件读写流程一、文件写入过程详细步骤解析:1、 client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传;2、 client请求第一个block该传输到哪些DataNode服务器上;3、 NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的DataNode的地址如:...

2019-11-05 21:18:49 116

原创 HDFS基本介绍

一、什么是HDFS?HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。1)HDFS集群包括,NameNode和DataNode以及Secondary Namenode。2)NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息...

2019-11-05 15:15:34 928

原创 Hadoop集群搭建

一、Hadopp的模块组成1.HDFS :一个高可靠、高吞吐量的分布式文件系统2.MapReduce :一个分布式的离线并行计算框架3.Yarn :作业调度与集群资源管理的框架4.Common:支持其他模块的工具模块。二、CDH 分布式环境搭建(准备好三台机器)1.第一步:上传压缩包并解压 第一台机器执行以下命令:* cd /export/softwares/*mv hadoo...

2019-11-04 20:49:17 172

原创 大数据介绍

一、什么是大数据?是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。二、大数据特点1.大量 :数据量巨大,从T...

2019-11-04 20:08:08 267

原创 Linux磁盘分区挂载

挂载一个新的系统磁盘第一步:先查看系统硬盘挂载情况 lsblk -f | fdisk -lsda├─sda1 ext4 7cc94e03-8b1a-4845-97fb-49a2c39afd8c /boot├─sda2 ext4 fe1d0eea-50ea-4d44-8...

2019-10-28 08:21:38 196

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除