松哥看世界-CSDN博客

写在前面：略进入主题：首先客户端发送请求到DFS，申请读取某一个文件 /tomcat.tar.gz DFS去NN查找这个文件的信息(权限,文件是否存在) 如果文件不存在，抛出指定的错误如果文件存在，返回成功状态 DFS创建FSDataInputStream对象，客户端通过这个对象读取数据客户端获取文件第一个Block信息,返回DN1 DN2 DN8 客户端直接就近原则选择DN1对应的数据即可依次类推读取其他块的信息，直到最后一个块,将Block合并成一个文件

2022-05-30 23:30:23 126

原创 MAC M1大数据0-1成神篇-22 hdfs写数据流程

写在前面：1.第一部分宏观讲一下流程2.第二部分微观讲一下流程进入主题：宏观流程 1.客户端向HDFS发送写数据请求 hdfs dfs -put tomcat.tar.gz /lzj/ 2. filesystem通过rpc调用namenode的create方法 nn首先检查是否有足够的空间权限等条件创建这个文件,或者这个路径是否已经存在有：NN会针对这个文件创建一个空的Entry对象,并返回成功状态给DFS 没有：直接抛出对应的异常，给予客户端错误提

2022-05-30 23:27:30 217

原创 MAC M1大数据0-1成神篇-21 hdfs机架感知策略

进入主题：节点距离 distance(/D1/R1/H1,/D1/R1/H1)=0相同的datanode distance(/D1/R1/H1,/D1/R1/H3)=2同一rack下的不同datanode distance(/D1/R1/H1,/D1/R2/H4)=4同一IDC下的不同datanode distance(/D1/R1/H1,/D2/R3/H7)=6不同IDC下的datanode 机架感知机架感知(rack awareness)是为了保证副本在集群的安全性

2022-05-30 23:15:14 208

原创 MAC M1大数据0-1成神篇-20 hdfs安全模式

写在前面：补充进入主题：集群启动时的一个状态安全模式是HDFS的一种工作状态，处于安全模式的状态下，只向客户端提供文件的只读视图，不接受对命名空间的修改；同时NameNode节点也不会进行数据块的复制或者删除 NameNode启动时首先将镜像文件（fsimage）载入内存，并执行编辑日志（edits）中的各项操作。一旦在内存中成功建立文件系统元数据的映像，则创建一个新的fsimage文件和一个空的编辑日志。 NameNode开始监听RPC和Http请求。此时Name

2022-05-30 23:10:53 182

原创 MAC M1大数据0-1成神篇-19 初识hadoop

写在前面：认识一下数据类型和其中的节点。进入主题：一.文件的数据类型文件有一个stat命令元数据信息-->描述文件的属性文件有一个vim命令查看文件的数据信息分类元数据文件数据真实存在于文件中的数据二. NameNode(NN) 2.1 功能接受客户端的读写服务 NameNode存放文件与Block的映射关系 DataNode存放Block与DataNode的映射关系保存...

2022-05-27 18:08:46 205

原创 MAC M1大数据0-1成神篇-18 hadoop安装

写在前面：开始搭建hadoop吧给链接：链接: https://pan.baidu.com/s/15kXxdkNtLcrkMggAFge0Ew 提取码: oldw进入主题：Hadoop3完全分布式搭建准备安装环境解压文件。 cd /opt/local/hadoop-3.3.1/etc/hadoop 修改集群环境 vim hadoop-env.sh export JAVA_HOME=/opt/local/jdk1.8.0_261export HDFS_.

2022-05-22 21:36:10 1004 5

原创 MAC M1大数据0-1成神篇-17 hadoop(分布式文件系统架构)

写在前面：在部署hadoop之前，先学习下分布式架构。 FS File System 文件系统是基于硬盘之上的一个文件管理的工具我们用户操作文件系统可以和硬盘进行解耦 DFS Distributed File System: 分布式文件系统将我们的数据存放在多台电脑上存储分布式文件系统有很多 HDFS是mapreduce计算的基础进入主题：文件切分思想文件存放在一个磁盘上效率肯定是低的读取效率低如果文件特别大会超出单机的存储范围字节数组

2022-05-21 22:35:00 375

原创 MAC M1大数据0-1成神篇-16 hadoop(hdfs算法篇)

写在前面：因为hadoop和mr涉及到了一些算法，那么我们先讲一些算法吧进入主题：1.算法复杂度算法复杂度分为时间复杂度和空间复杂度。其作用：时间复杂度是指执行这个算法所需要的计算工作量；而空间复杂度是指执行这个算法所需要的内存空间；时间和空间都是计算机资源的重要体现，而算法的复杂性就是体现在运行该算法时的计算机所需的资源1.1 空间复杂度一个程序的空间复杂度是指运行完一个程序所需内存的大小。利用程序的空间复杂度，可以对程序的运行所需要的内存多少有个预先估计。

2022-05-19 14:23:51 466

原创 MAC M1大数据0-1成神篇-15 zookeeper(面试题)

写在前面：来吧，开造，整理了目前zk面试题，面试不在怕。进入主题：面试题ZooKeeper 是什么？ ZooKeeper 提供了什么？ Zookeeper 文件系统 ZAB 协议？四种类型的数据节点 Znode Zookeeper Watcher 机制 -- 数据变更通知客户端注册 Watcher 实现服务端处理 Watcher 实现客户端回调 Watcher ACL 权限控制机制 Chroot 特性会话管理服务器角色 Zookeeper 下 Serve

2022-05-17 16:20:16 149

原创 MAC M1大数据0-1成神篇-14 深入zookeeper(ACL)

写在前面：ACL节点权限控制(了解即可，因这部分都是公司运维做的，需要知道5种权限，4种方式。命令可以不记。)进入主题：1.ZK的节点有5种操作权限：CREATE、READ、WRITE、DELETE、ADMIN也就是增、删、改、查、管理权限，这5种权限简写为crwda，这5种权限中，delete是指对子节点的删除权限，其它4种权限指对自身节点的操作权限2.身份的认证有4种方式：-world：默认方式，相当于全世界都能访问 -auth：代表已经认证通过的用户(cli中可以通过addau

2022-05-17 15:23:58 286

原创 MAC M1大数据0-1成神篇-13 深入zookeeper(ZAB协议)

写在前面：其实ZAB协议是专门为分布式协调服务zookeeper设计的一种支持崩溃恢复的原子广播协议。进入主题：1.zab是zk实现分布式数据一致性的核心算法，zab借鉴paxos算法（paxos之前文章有讲解）2.在zk中，主要依赖ZAB协议来实现分布式数据一致性，基于该协议，zk实现了一种主备模式的系统架构来保持集群中各个副本之间的数据一致性。3.ZAB协议的三个阶段【发现，同步，广播】发现：即要求zookeeper集群必须选择出一个leader进程，同时leader会维

2022-05-17 11:20:01 256

原创 MAC M1大数据0-1成神篇-12 深入zookeeper(存储结构,节点分类,监听机制)

写在前面：我们了解了zookeeper的命令后，那么下面我们来了解zookeeper的原理以及其他知识。进入主题：1.存储结构zookeeper是一个树状结构，维护一个小型的数据节点znode 数据以keyvalue的方式存在，目录是数据的key 所有的数据访问都必须以绝对路径的方式呈现我们了解一下get里面的参数是什么意思吧；[zk:localhost:2181(CONNECTED)10]get /lzj666 当前节点的值cZxid=0xf00000013 创建这个

2022-05-14 23:30:11 301

原创 MAC M1大数据0-1成神篇-11 zookeeper常用命令

写在前面：搭建完zookeeper，咱们用一些常用的命令玩一下吧。进入主题：zk服务命令注：咱们已经配置了环境变量，随便在哪个位置输入命令都行。启动zk服务：zkServer.sh start start 查看zk服务状态：zkServer.sh status 停止zk服务：zkServer.sh stop 重启zk服务：zkServer.sh restart 连接服务器：zkCli.sh -server ip:2181 或者zkCli.sh（默认连的本机）进入客户端输入.

2022-05-13 18:14:04 377

原创 MAC M1大数据0-1成神篇-10 zookeeper部署

写在前面：注：先看我第5篇文章，之后再来操作这篇文章。进入主题：编辑：vim /opt/zookeeper-3.4.14/conf/zoo.cfg添加服务器内部通信的地址和zk集群的节点#设置服务器内部通信的地址和zk集群的节点server.1=node01:2888:3888server.2=node02:2888:3888server.3=node03:2888:38882888：3888一个是保持心跳的地址，一个是投票的地址。创建myidtouch /opt/

2022-05-12 16:38:28 366

原创 MAC M1大数据0-1成神篇-9 集群免密钥

写在前面：如何测试自己集群是否设置了免密钥,如果需要密码，说明没有。代码如下：ssh ip思路：1.生成自己的密钥对2.将公钥拷贝到对方主机的authoried_keys文件进入主题：1.第一次建立连接，需要输入yes在～/ssh/known_hosts文件记录了以前访问地址 ip hostname 的信息在访问地址的时候如果没有记录到known_hosts文件中，就需要输入yes 如果以前收录到known_hosts中，直接输入密码即可2.生成自己的私钥公钥(三台

2022-05-12 11:37:00 446

原创 MAC M1大数据0-1成神篇-8 paxos / raft一致性选举

进入主题：http://thesecretlivesofdata.com/raft/

2022-05-08 22:43:53 409

原创 MAC M1大数据0-1成神篇-7 补充CAP模式

写在前面：CAP原则：C（Consistency）：一致性A（Availablitity）：可用性P（Partition tolerance）：分区容错性如：zookeeper:CP模式进入主题：我们了解了CAP中的三个定义，CAP定理是表示分布式系统只能满足三项中的两项，而不可能满足全部三项。即分布式系统只能满足三种情况：CA、CP、AP。我们来分析一下，我们先看P，也就是分区容错性；在分布式系统中，网络异常是不可避免的，所以如果不保证分区容错性，除非节点间网络不会发生异常，这.

2022-05-03 22:20:03 878

原创 MAC M1大数据0-1成神篇-6 补充raid模式

写在前面：RAID ( Redundant Array of Independent Disks )即独立磁盘冗余阵列，通常简称为磁盘列阵进入主题：一、Raid 0：一块硬盘或者以上就可做raid0优势：数据读取写入最快，最大优势提高硬盘容量，比如3块80G的硬盘做raid0 可用总容量为240G。速度是一样。缺点：无冗余能力，一块硬盘损坏，数据全无。建议：做raid0 可以提供更好的容量以及性能，推荐对数据安全性要求不高的使用。二、Raid 1：至少2快硬盘可做rai.

2022-05-03 22:07:21 500

原创 MAC M1大数据0-1成神篇-5 zookeeper安装

写在前面：用的是centos7用的是arm架构的，目前zookeeper兼容这个。可以选择官网下载，也可以选择我提供的链接运行环境配置和必要条件准备jdk版本需要在1.8.0及上版本（我之前讲的就是用的1.8以上，如果不是可以根据我之前的安装）用的 zookeeper3.4.14给链接：链接: https://pan.baidu.com/s/1QZz8-gn5C94sy4o5MW-HbA 提取码: 1j91进入主题：将zookeeper安装到ARM服务器/opt/local

2022-05-02 18:16:36 901

原创 MAC M1大数据0-1成神篇-4 mysql安装

写在前面：centos7用的是arm架构的，和平常的不一样。用的 mysql5.7.27给链接：链接: https://pan.baidu.com/s/1jKdZczecTvGxldgpCQJyng 提取码: 64po进入主题：将mysql安装包传输到ARM服务器/usr/local/mysql目录下安装依赖包：yum install -y libaio* 安装依赖包：yum -y install numactl 解压 Tomcat：tar -zxvf mysql-5.7.2

2022-05-02 16:58:59 1579

原创 MAC M1大数据0-1成神篇 -1 copy主机后需要做的事情

前提条件：1.首先这里用的是arm_centos7 安装linux这里省略。2.网卡配置已经配置好，可以正常联网。那么开始啦～～～～～1.修改网络接口配置文件,ip修改。vim /etc/sysconfig/network-scripts/ifcfg-ens33（注：没有vim的可以 yum -y install yum 自己安装一个。）2.修改主机名。vim /etc/hostname...

2022-05-01 00:00:25 1529

原创 MAC M1大数据0-1成神篇-3 tomcat安装

写在前面：centos7用的是arm架构的，和平常的不一样。用的 tomcat7.0给链接：链接: https://pan.baidu.com/s/1YdZXBX3JxEsvptpGeZG5EQ 提取码: 5anq进入主题：将tomcat安装包传输到ARM服务器/usr/local/tomcat目录下解压 Tomcattar -zxvf apache-tomcat-7.0.106.tar.gz 编辑/etc/profile 文件配置 tomcat 环境变量vim /etc/p.

2022-04-30 23:59:33 697

原创 MAC M1大数据0-1成神篇-2 jdk安装

写在前面：m1芯片是arm架构的，目前oracel还没有推出arm架构的jdk，目前用zulu的jdk。进入主题：1.官网https://www.azul.com/downloads/zulu-community/?package=jdk（下载比较慢）2.我提供的链接

2022-04-30 23:47:09 797

原创 Linux

https://download.csdn.net/download/MmmxsBlogs/82709642https://download.csdn.net/download/MmmxsBlogs/82709642

2022-02-28 10:06:06 99

原创 kafka术语

Broker :其实就算一台kafka服务器节点，负责消息/数据读写请求、存储信息、 kafka Cluster其实里面是有多个broker构成Topic：主题可以根据业务将不同的数据存放在不同的主题日志数据==》log topic 交易数据==》tran topic 不同类别的消息存放在不同的topic里面更清晰、更方便下游数据的处理Partition：分区 ...

2020-12-06 16:34:37 122

原创 flume数据不会丢失？

工作中推荐 Spooling Directory Source配置：vi /home/hadoop/app/apache-flume-1.6.0-cdh5.16.2-bin/config/flume-spooling.confa1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = TAILDIRa1.sources.r1.channels = c1a1.sources.r1.positio...

2020-11-30 19:01:59 166

原创 springboot热部署，不生效？，看我这一篇就够了

热部署是什么？为了在自己测试程序的时候，在添加代码的时候不用重新启动程序，程序会自动加载你最新写入的程序。话不多说，直接干货！首先第一步pom文件里面需要添加：<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-devtools</artifactId> <optional>true</o

2020-11-10 15:40:31 350 1

原创 copy别人的虚拟机，应该如何配置网络

首先，copy过来后，输入[hadoop@hadoop000 ~]$ ifconfiglo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536 inet 127.0.0.1 netmask 255.0.0.0 inet6 ::1 prefixlen 128 scopeid 0x10<host> loop txqueuelen 1 (Local Loopback) RX pa...

2020-10-29 22:24:12 1483 5

原创轻松下载JDK

solo哥下载jdk的时候进入oracle官网，下载的时候居然还需要登录，遇到困难就解决。分享一个网站！！！账号随便用啦http://bugmenot.com/view/oracle.com

2020-10-25 18:02:43 148

原创 kudu遇到的坑-持续更新

idea通过spark代码往kudu里面建表以及插入结果数据，报了这个错误：java.lang.IllegalArgumentException: cannot import authentication data from a different user: old='', new='XXX'最后的解决方法是修改Kudu的设置。首先在/etc/init.d关闭Kudu： [hadoop@hadoop000 init.d]$ sudo ./kudu-master stop Sto

2020-10-06 21:00:31 738 1

原创 kudu不再复杂

KUDU个人总结介绍HDFS和HBase是大数据最常用的两种存储方式，为什么使用kudu?HDFS（使用列式存储格式Apache Parquet，Apache ORC，适合离线分析，不支持单条记录级别的update操作，随机读写性能差）。HBase（可以进行高效随机读写，却并不适用于基于SQL的数据分析方向，大批量数据获取时的性能较差，那为什么HBase不适合做分析呢？因为分析需要批量获取数据，而HBase本身的设计并不适合批量获取数据1）都说HBase是列式数据库，其实从底层存储的角度来说它

2020-09-14 20:53:31 194

原创 hive简单操作命令部分总结1

set hive.cli.print.current.db=true/select current_database();--hive窗口中显示当前所在的数据库ctrl+l或者！clear--hive清屏drop database 数据库名 cascade--想删库用cascade,如果数据库下有表用这个删row format delimited fields terminated by '分隔符'--想要hi...

2020-05-25 23:00:05 673

大数据：第一阶段Linux篇

kudu-rpm-6个.zip

CentOS_64和VM10

Mysql_32_64+SQLyog客户端

eclipse10及破解及护眼主题（网盘）

spring必备jar包-网盘

空空如也