自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 了解flume sqoop

Sqoop 是一个在结构化数据和 Hadoop 之间进行批量数据迁移的工具 结构化数据可以是MySQL、Oracle等关系型数据库 把关系型数据库的数据导入到 Hadoop 与其相关的系统 把数据从 Hadoop 系统里抽取并导出到关系型数据库里 底层用 MapReduce 实现数据迁移。3、部分Source保证了Flume挂了以后重启依旧能够继续在上一次采集点采集数据,真正做到数据零丢失。1、可以高速采集数据,采集的数据能够以想要的文件格式及压缩方式存储在hdfs上;

2022-11-25 21:05:55 573 1

原创 vm中flume的安装

上传到 /home/hadoop 目录。在环境变量最后添加以下内容。

2022-11-25 20:59:46 549

原创 vm中sqoop的安装

下载、上传、解压、重命名和授权 https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 上传到 /home/hadoop 目录。配置环境变量 编辑环境变量 vim /home/hadoop/.bashrc。上传 jar 文件 cd /usr/local/sqoop/lib/刷新环境变量 source /home/hadoop/.bashrc。在环境变量最后添加以下内容。

2022-11-25 20:55:22 714

原创 HBase基础 详细认识

具体在哪个 HRegionServer 是记录在 Zookeeper 上。当 StoreFile 数量达到 3 个时会合并为一个大的 StoreFile。MemStore 占用整个节点的内存超过上限(40%)新的 Region 会迁移到其它 HRegionServer 进行管理。非关系型数据库---- 分布式数据库 有选择性的放弃了 CAP 理论中的某一个特性。当 HLog 数量达到上限(32)的时候会触发 Flush 操作。StoreFile 是磁盘上保存数据的文件。

2022-10-16 12:47:54 369

原创 搭建 Zookeeper 集群

(1)编辑 3 个节点上的 zoo.cfg 文件(3 个节点都执行) vim /usr/local/zookeeper/conf/zoo.cfg。(1)在 3 个节点上创建 data 目录(3 个节点都执行) mkdir /usr/local/zookeeper/data。(1)删除 3 个节点上的 ssh 配置文件(3 个节点都执行) rm -rf /home/hadoop/.ssh。(2)在 3 个节点上生成公钥(3 个节点都执行) ssh-keygen。slave2 节点填入 3。

2022-10-12 21:58:55 634

原创 克隆vm虚拟机详细步骤

(1) 编辑 IP 配置文件 vim /etc/netplan/50-cloud.ymal。7、使用 root 用户登录,密码为 123456。2、在已有的虚拟机下右键点击“管理”->“克隆”3、选择完整克隆(你也可以选择链接克隆)(3)重启网络 netplan apply。1、关闭虚拟机中的所有软件并关闭虚拟机。4、点击下一步直到去修改虚拟机信息。5、等待克隆完成后关闭操作窗口。8、配置 IP 地址。(2)修改 IP 地址。

2022-10-12 21:50:13 4808

原创 单机Zookeeper 的详细安装!

2、解压 Zookeeper 到 /usr/local 目录中 sudo tar -xvf apache-zookeeper-3.6.1-bin.tar.gz -C /usr/local。zookeeper的下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.6.1。6、进入 Zookeeper 安装目录下的 conf 目录 cd /usr/local/zookeeper/conf。9、在环境变量增加以下内容。

2022-10-12 21:44:11 1146

原创 HA 的概念 Zookeeper 的介绍和原理

同步两个 NameNode 的数据 在第一个 NameNode 宕机后启用第二个 NameNode。Follower:Leader 的备份数据,状态同步,参与选举操作。Zookeeper 通常以集群的方式使用 一般为 3 或 5 个节点,奇数。NameNode 存在单点故障的可能,需要配置 HA 解决。解决单点故障,保证企业服务 7*24 小时不宕机。单点故障:某个节点宕机导致整个集群的宕机。5台服务器,1√,2√,3√,4√,5√。Leader:被选举出的,与客户端交互。少数服从多少(半数原则)

2022-10-11 10:39:20 319

原创 hive的常用语句!

默认把HDFS上的数据追加到表中,导入HDFS数据到表,本质是一个剪切操作。Hive中的数据库本质就是HDFS上的一个目录,数据库中文件目录名称是以.db结尾。CASCADE关键字可以先删除数据库中的表,在删除数据库。name STRING COMMENT '名字'删除表的时候会删除表结构和、表目录和其中的数据文件。不会在数据库目录下创建表目录,也不会剪切数据文件。默认只能删除空的数据库,即不包含表的数据库;分隔符:通过分隔符来识别行、列和集合中的元素。内部表(管理表),管理着数据的生命周期。

2022-10-07 19:47:07 413

原创 HIVE分区表执行步骤

第八步:加载数据 ----load data inpath '/student/student_cs_a1.txt' into table student partition(college ='cs',clazz = 'a1')第六步:上传文件student_cs_a1.txt至hdfs /student目录下 ----hdfs dfs -put /home/hadoop/student_cs_a1.txt /student。第九步:导入本地数据到表student。

2022-09-24 21:12:07 368

原创 hive 基础

Hive 可以将存储在 HDFS 中的结构化数据映射为数据库中的一张表,并提供了一种 SQL 方言对其进行查询。上传mysql的驱动文件到lib目录 驱动文件是:mysql-connector-java-5.1.47.jar。进入 hive 的依赖库目录,使用以下命令:cd /usr/local/hive/lib。CASCADE关键字可以先删除数据库中的表,在删除数据库。分隔符:通过分隔符来识别行、列和集合中的元素。数据类型:本质还是Java中的数据类型的。今天的学习分享已完成 耶!

2022-09-17 13:43:50 704

原创 关于Yarn的相关知识点!

7、client 联系 ResourceManager,ResourceManager 联系 ApplicationMaster 监控程序的运行状态;2、ResourceManager 找到一个空闲的 Container 启动 ApplicationMaster;4、ApplicationMaster 向 ResourceManager 申请空闲的 Container;资源(Container):运行程序所需要的硬件环境。管理和使用自身的资源(container)为运行程序而分配的资源(硬件环境)

2022-09-13 12:31:33 169

原创 Hadoop 中的数据类型

/ 将Java的int类型变量23封装成Hadoop的整形类IntWritable对象。//将Java的int类型变量23封装成Hadoop的整形类IntWritable对象。// 将Hadoop的IntWritable对象转换成int的整形数据。// 将Hadoop的Text对象转换成String的文本类型字符串。1、对于 Text 类型使用 toString() 方法进行转换。IntWritable 对应 Java 的 int。Text 对应 Java 的 String。2、通过set()进行转换。

2022-09-12 17:50:12 946

原创 如何实现序列化

Hadoop 的序列化只需要实现 Writable 接口。实现其中的 readFiles 和 write 两个方法。互操作:支持在不同编程语言间的使用。实现数据在不同系统之间的传输。把内存中的对象转换成字节序列。将字节序列转换成内存中的对象。可扩展:可以轻松添升级加新功能。readFiles:反序列化。Hadoop 对序列化的要求。字节序列转换成内存中的对象。紧凑:序列化的结果尽量小。快速:序列化的速度尽量快。

2022-09-12 17:48:27 386

原创 MapReduce并行计算构架流程

8.reduce 合并下载的所有文件,并进行排序和聚合操作,形成新的 key-value 数据;5. 每当缓冲区数据达量达到阈值(80%)的时候,就进行一次性溢写操作,把数据写入磁盘;4. map 的分析结果会先写入内存缓存区,在内存缓冲区中进行分区和排序;9. 聚合后的 key-value 依次输入 reduce 程序进行汇总;2. 切片中的数据转换为 key-value 格式输入 map 程序;1. 对数据进行切片,决定启动多少个 map 程序;3. map 程序处理输入的数据,并输出分析结果;

2022-09-11 13:39:53 1257

原创 HDFS 写流程和读流程,超详细!!!

11. Client 继续向 NameNode 申请上传下一个 block。4. Client 向 DataNode1 申请下载 block1。5. Client 向 NameNode 申请上传 block1。8. Client 发送 block1 给 DataNode1。5. DataNode1 发送 block1 给 Client。DataNode1 回复 Client 接收完毕。1. Client 向 NameNode 申请上传文件。1. Client 向 NameNode 申请下载文件。

2022-09-09 18:51:28 209

原创 HDFS 的优势与劣势

HDFS 的优势HDFS 的劣势。

2022-09-09 15:58:23 285

原创 HDFS 的架构

1 个 SecondaryNameNode 辅助 NameNode 维护目录树。HDFS 采用的是主从架构模型(Master/Slave)不同的功能配合起来形成完整的功能。

2022-09-09 15:53:41 1131

原创 Hadoop 集群搭建

一,Hadoop 的安装模式二,基础环境准备-选择操作系统基础环境准备-安装 VMware下载 VMware的平台安装完成后基础环境准备-部署 Ubuntu下载 Ubuntu 18 镜像http://mirrors.aliyun.com/ubuntu-releases/18.04/基础环境准备-部署 Ubuntu选择前边下载好的 Ubuntu 镜像设置服务器名称和用户名设置虚拟机名称和存储位置设置磁盘容量完成虚拟机创建,并自动启动虚拟机选择 English 作为系统语言。

2022-09-09 14:03:45 624 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除