- 博客(11)
- 收藏
- 关注
原创 HBase的集群环境搭建
HBase的集群环境搭建第一步:下载对应的HBase 安装包所有关于CDH版本的软件包下载地址如下:http://archive.cloudera.com/cdh5/cdh/5/HBase对应的版本下载地址如下:http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.14.0.tar.gz第二步:压缩包上传并解压将下载好的安装包...
2019-12-13 20:34:51 122
原创 大数据相关组件介绍及安装部署
一、 Apache Sqoop1、sqoop介绍:Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。 Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括:HDFS、Hive、Hbase等RDBMS体系包括:...
2019-12-06 20:24:16 336
原创 (二)HIve的安装部署
一、derby版hive直接使用1、解压hivecd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C …/servers/2、直接启动 bin/hivecd …/servers/cd hive-1.1.0-cdh5.14.0/bin/hivehive> create database mytest;...
2019-11-22 21:21:03 163
原创 (一)HIve基本概念
1.1、Hive简介什么是Hive?Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具。为什么使用Hive? 直接使用hadoop所面临的问题人员学习成本太高...
2019-11-22 17:22:29 123
原创 MapReduce
什么是计算框架?是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。用于去解决或者处理某个复杂的计算问题。2.什么是并行计算框架?是指为更快的计算某项任务或某项工作,将计算程序分发到多台服务器上,使每个服务器计算总任务的一部分,多台服务器同时计算的框架。3.理解MapReduce思想MapReduce由两部分组成,分别是Map 和Reduce两部分。MapReduce的...
2019-11-13 10:32:22 107
原创 HDFS新增节点与删除节点
一、准备新的节点第一步:复制一台新的虚拟机出来第二步:修改mac地址以及IP地址第三步:关闭防火墙,关闭selinux第四步:更改主机名第五步:四台机器更改主机名与IP地址映射第六步:node04服务器关机重启并生成公钥与私钥第七步:node04安装jdk第八步:解压Hadoop安装包第九步:将node01关于Hadoop的配置文件全部拷贝到node04二、服役新的节点第一步...
2019-11-06 20:15:45 213
原创 HDFS【2】
HDFS文件读写流程一、文件写入过程详细步骤解析:1、 client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传;2、 client请求第一个block该传输到哪些DataNode服务器上;3、 NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的DataNode的地址如:...
2019-11-05 21:18:49 116
原创 HDFS基本介绍
一、什么是HDFS?HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。1)HDFS集群包括,NameNode和DataNode以及Secondary Namenode。2)NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息...
2019-11-05 15:15:34 928
原创 Hadoop集群搭建
一、Hadopp的模块组成1.HDFS :一个高可靠、高吞吐量的分布式文件系统2.MapReduce :一个分布式的离线并行计算框架3.Yarn :作业调度与集群资源管理的框架4.Common:支持其他模块的工具模块。二、CDH 分布式环境搭建(准备好三台机器)1.第一步:上传压缩包并解压 第一台机器执行以下命令:* cd /export/softwares/*mv hadoo...
2019-11-04 20:49:17 172
原创 大数据介绍
一、什么是大数据?是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。二、大数据特点1.大量 :数据量巨大,从T...
2019-11-04 20:08:08 267
原创 Linux磁盘分区挂载
挂载一个新的系统磁盘第一步:先查看系统硬盘挂载情况 lsblk -f | fdisk -lsda├─sda1 ext4 7cc94e03-8b1a-4845-97fb-49a2c39afd8c /boot├─sda2 ext4 fe1d0eea-50ea-4d44-8...
2019-10-28 08:21:38 196
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人