琳小小小-CSDN博客

原创了解flume sqoop

Sqoop 是一个在结构化数据和 Hadoop 之间进行批量数据迁移的工具结构化数据可以是MySQL、Oracle等关系型数据库把关系型数据库的数据导入到 Hadoop 与其相关的系统把数据从 Hadoop 系统里抽取并导出到关系型数据库里底层用 MapReduce 实现数据迁移。3、部分Source保证了Flume挂了以后重启依旧能够继续在上一次采集点采集数据，真正做到数据零丢失。1、可以高速采集数据，采集的数据能够以想要的文件格式及压缩方式存储在hdfs上；

2022-11-25 21:05:55 585 1

原创 vm中flume的安装

上传到 /home/hadoop 目录。在环境变量最后添加以下内容。

2022-11-25 20:59:46 558

原创 vm中sqoop的安装

下载、上传、解压、重命名和授权 https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 上传到 /home/hadoop 目录。配置环境变量编辑环境变量 vim /home/hadoop/.bashrc。上传 jar 文件 cd /usr/local/sqoop/lib/刷新环境变量 source /home/hadoop/.bashrc。在环境变量最后添加以下内容。

2022-11-25 20:55:22 721

原创 HBase基础详细认识

具体在哪个 HRegionServer 是记录在 Zookeeper 上。当 StoreFile 数量达到 3 个时会合并为一个大的 StoreFile。MemStore 占用整个节点的内存超过上限（40%）新的 Region 会迁移到其它 HRegionServer 进行管理。非关系型数据库---- 分布式数据库有选择性的放弃了 CAP 理论中的某一个特性。当 HLog 数量达到上限（32）的时候会触发 Flush 操作。StoreFile 是磁盘上保存数据的文件。

2022-10-16 12:47:54 380

原创搭建 Zookeeper 集群

(1)编辑 3 个节点上的 zoo.cfg 文件（3 个节点都执行） vim /usr/local/zookeeper/conf/zoo.cfg。(1)在 3 个节点上创建 data 目录（3 个节点都执行） mkdir /usr/local/zookeeper/data。（1）删除 3 个节点上的 ssh 配置文件（3 个节点都执行） rm -rf /home/hadoop/.ssh。（2）在 3 个节点上生成公钥（3 个节点都执行） ssh-keygen。slave2 节点填入 3。

2022-10-12 21:58:55 639

原创克隆vm虚拟机详细步骤

（1）编辑 IP 配置文件 vim /etc/netplan/50-cloud.ymal。7、使用 root 用户登录，密码为 123456。2、在已有的虚拟机下右键点击“管理”->“克隆”3、选择完整克隆（你也可以选择链接克隆）（3）重启网络 netplan apply。1、关闭虚拟机中的所有软件并关闭虚拟机。4、点击下一步直到去修改虚拟机信息。5、等待克隆完成后关闭操作窗口。8、配置 IP 地址。（2）修改 IP 地址。

2022-10-12 21:50:13 4854

原创单机Zookeeper 的详细安装！

2、解压 Zookeeper 到 /usr/local 目录中 sudo tar -xvf apache-zookeeper-3.6.1-bin.tar.gz -C /usr/local。zookeeper的下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.6.1。6、进入 Zookeeper 安装目录下的 conf 目录 cd /usr/local/zookeeper/conf。9、在环境变量增加以下内容。

2022-10-12 21:44:11 1158

原创 HA 的概念 Zookeeper 的介绍和原理

同步两个 NameNode 的数据在第一个 NameNode 宕机后启用第二个 NameNode。Follower：Leader 的备份数据，状态同步，参与选举操作。Zookeeper 通常以集群的方式使用一般为 3 或 5 个节点，奇数。NameNode 存在单点故障的可能，需要配置 HA 解决。解决单点故障，保证企业服务 7*24 小时不宕机。单点故障：某个节点宕机导致整个集群的宕机。5台服务器，1√，2√，3√，4√，5√。Leader：被选举出的，与客户端交互。少数服从多少（半数原则）

2022-10-11 10:39:20 332

原创 hive的常用语句！

默认把HDFS上的数据追加到表中，导入HDFS数据到表，本质是一个剪切操作。Hive中的数据库本质就是HDFS上的一个目录，数据库中文件目录名称是以.db结尾。CASCADE关键字可以先删除数据库中的表，在删除数据库。name STRING COMMENT '名字'删除表的时候会删除表结构和、表目录和其中的数据文件。不会在数据库目录下创建表目录，也不会剪切数据文件。默认只能删除空的数据库，即不包含表的数据库；分隔符：通过分隔符来识别行、列和集合中的元素。内部表（管理表），管理着数据的生命周期。

2022-10-07 19:47:07 416

原创 HIVE分区表执行步骤

第八步：加载数据 ----load data inpath '/student/student_cs_a1.txt' into table student partition(college ='cs',clazz = 'a1')第六步：上传文件student_cs_a1.txt至hdfs /student目录下 ----hdfs dfs -put /home/hadoop/student_cs_a1.txt /student。第九步：导入本地数据到表student。

2022-09-24 21:12:07 378

原创 hive 基础

Hive 可以将存储在 HDFS 中的结构化数据映射为数据库中的一张表，并提供了一种 SQL 方言对其进行查询。上传mysql的驱动文件到lib目录驱动文件是：mysql-connector-java-5.1.47.jar。进入 hive 的依赖库目录，使用以下命令：cd /usr/local/hive/lib。CASCADE关键字可以先删除数据库中的表，在删除数据库。分隔符：通过分隔符来识别行、列和集合中的元素。数据类型：本质还是Java中的数据类型的。今天的学习分享已完成耶！

2022-09-17 13:43:50 727

原创关于Yarn的相关知识点！

7、client 联系 ResourceManager，ResourceManager 联系 ApplicationMaster 监控程序的运行状态；2、ResourceManager 找到一个空闲的 Container 启动 ApplicationMaster；4、ApplicationMaster 向 ResourceManager 申请空闲的 Container；资源（Container）：运行程序所需要的硬件环境。管理和使用自身的资源（container）为运行程序而分配的资源（硬件环境）

2022-09-13 12:31:33 183

原创 Hadoop 中的数据类型

/ 将Java的int类型变量23封装成Hadoop的整形类IntWritable对象。//将Java的int类型变量23封装成Hadoop的整形类IntWritable对象。// 将Hadoop的IntWritable对象转换成int的整形数据。// 将Hadoop的Text对象转换成String的文本类型字符串。1、对于 Text 类型使用 toString() 方法进行转换。IntWritable 对应 Java 的 int。Text 对应 Java 的 String。2、通过set()进行转换。

2022-09-12 17:50:12 960

原创如何实现序列化

Hadoop 的序列化只需要实现 Writable 接口。实现其中的 readFiles 和 write 两个方法。互操作：支持在不同编程语言间的使用。实现数据在不同系统之间的传输。把内存中的对象转换成字节序列。将字节序列转换成内存中的对象。可扩展：可以轻松添升级加新功能。readFiles：反序列化。Hadoop 对序列化的要求。字节序列转换成内存中的对象。紧凑：序列化的结果尽量小。快速：序列化的速度尽量快。

2022-09-12 17:48:27 397

原创 MapReduce并行计算构架流程

8.reduce 合并下载的所有文件，并进行排序和聚合操作，形成新的 key-value 数据；5. 每当缓冲区数据达量达到阈值（80%）的时候，就进行一次性溢写操作，把数据写入磁盘；4. map 的分析结果会先写入内存缓存区，在内存缓冲区中进行分区和排序；9. 聚合后的 key-value 依次输入 reduce 程序进行汇总；2. 切片中的数据转换为 key-value 格式输入 map 程序；1. 对数据进行切片，决定启动多少个 map 程序；3. map 程序处理输入的数据，并输出分析结果；

2022-09-11 13:39:53 1279

小小王的博客

原创了解flume sqoop

原创 vm中flume的安装

原创 vm中sqoop的安装

原创 HBase基础详细认识

原创搭建 Zookeeper 集群

原创克隆vm虚拟机详细步骤

原创单机Zookeeper 的详细安装！

原创 HA 的概念 Zookeeper 的介绍和原理

原创 hive的常用语句！

原创 HIVE分区表执行步骤

原创 hive 基础

原创关于Yarn的相关知识点！

原创 Hadoop 中的数据类型

原创如何实现序列化

原创 MapReduce并行计算构架流程

原创 HDFS 写流程和读流程，超详细！！！

原创 HDFS 的优势与劣势

原创 HDFS 的架构

原创 Hadoop 集群搭建

空空如也

DBeaver在与hive创建新的链接的时候提示报错

安装MySQL提示报错

配置jdk卡了半个小时了