弦之森-CSDN博客

在前面，使用的root用户，但是启动集群时，需要使用到Hadoop用户，所以这里我们需要将/export/server/路径下的hive 和apache-hive-3.1.3-bin的用户和用户组划给Hadoop，以便我们后序的使用。如果初始化成功，那么再次进入MySQL，我们可以在MySQL的hive库中看见274张新建的元数据的表。切换到Hadoop用户创建logs文件夹。需要注意，此处应该将用户切换为Hadoop。注意，需要提前开启hsfs和yarn集群。需要注意，此处应该切换到Hadoop用户。

2023-12-23 14:53:42 1123

原创十七、如何将MapReduce程序提交到YARN运行

对于这些Hadoop内置的程序，他们都存储在hadoop-mapreduce-examples-3.3.6.jar中，如wordcount单词计数程序、pi求圆周率程序。执行完成后，查看some文件夹，可以看到some文件夹中存在两个子文件，第一个文件的文件名的最后一个单词，代表了本次程序运行是否成功，第二个文件存放着程序运行之后的结果。此处需要注意，对于有返回值的程序，需要指定程序参数。需要确保输出的文件夹不存在，否则会报错。

2023-12-17 00:02:00 911

原创十六、YARN和MapReduce配置

已经配置好Hadoop集群。配置内容：（2）修改mapred-site.xml配置文件yarn（1）修改yarn-env.sh文件（2）修改yarn-site.xml文件分发配置文件（2）执行结果展示、打开本地浏览器，输入node1:8088，即可打开本地YARN的Web-UI页面。

2023-12-15 23:25:38 730

原创十五、YARN辅助架构

对于YARN架构来讲，除了ResourceManager集群资源总管家、NodeManager单机资源管家两个核心角色外，还可以搭配两个辅助角色使得YARN架构的运行更加稳定、更加高效。辅助角色：~代理服务器（ProxyServer）~历史服务器（JobHistoryServer）

2023-12-15 22:58:08 557

原创十四、YARN核心架构

ResourceManager：整个集群的资源调度者，负责协调各个程序所需要的资源。NodeManager：单个服务器的资源调度者，负责调整单个服务器上的资源供给应用程序使用。在这里，我们可以将ResourceManager理解为一个项目的总经理，将NodeManager理解为每一个模块的负责人。在2(2)中，我们提到，如果某个程序需要申请12G的内存空间，那个它就会向ResourceManager提出申请，ResourceManager收到申请之后，会向每个NodeMana

2023-12-15 20:48:11 455

原创十三、YARN资源分配调用

在Hadoop文件系统中，YARN作为Hadoop系统的第三大组件，其中，第二大组件MapReduce组件是基于YARN运行的，即没有YARN无法运行MapReduce程序，所以需要同时学习YARN。资源调度，所谓资源调度，就是如下：如何理解资源调度？举个例子，在一个一万平米的场地上，会有许多人在这里撑帐篷。在无人管理的情况下，大家随意撑开帐篷，可能最多撑50个帐篷，但如果有人对这个场地进行分配，可能会撑80个帐篷。这就是资源调度。

2023-12-12 23:15:00 416

原创十二、MapReduce概述

MapReduce是“分散——>汇总”模式的分布式计算框架，可供开发人员进行相应计算~Map~Reduce其中，Map功能接口提供了“分散”的功能，由服务器分布式对数据进行处理。Reduce功能接口提供了“汇总(聚合)”的功能，将分布式的处理结果汇总统计。用户如需使用MapReduce框架完成自定义需求的程序开发，只需要使用Java、python等编程语言，实现Map Reduce功能接口即可。将任务分解为“分散”——>“任务”——>“汇总”。在这里，我们一共

2023-12-08 17:40:07 429

原创十一、了解分布式计算

顾名思义，分布式计算，即以分布式的形式完成数据的统计，得到需要的结果。分布式数据计算，顾名思义，就是“以多取胜”，如果一个问题使用一台计算机计算需要耗时1天，那我们就是用几百个数据节点来计算。在计算和处理数据时，我们为什么要使用分布式计算，不能用“计算器”来计算吗？其实，使用什么方式来处理数据，并不是由我们决定的，是由数据本身决定的。将一个数据分配给许多服务器，每一个服务器分配到一部分的数据，当它们将数据处理完成，将它们各自处理的数据结果向其中一台服务器进行汇

2023-12-08 17:06:07 808

原创十、数据读/写流程

~客户端发送请求~NameNode做判断，是否具有权限，空间是否充足~返回地址，告诉客户端一个datanode，~向指定的datanode发送数据包，副本的复制和备份如何处理？被写入的DataNode同时完成数据副本的复制工作，将其接收的数据分发给其它DataNode，DataNode之间完成本分~客户端告诉NameNode工作结束，NameNode开始记录元数据，即工作文档。 NameNode不接受数据，它只负责审批和记录元数据 DataNode

2023-12-08 16:29:44 472

原创九、hdfs中Namenode元数据处理

在hdfs文件系统中，用户的每一次操作，都会对文件系统产生响应的影响，那么谁来记录这些影响呢？在hdfs文件系统中，edits文件记录了hdfs中的每一次操作，以及本次操作影响的文件其对应的block。但于此同时，会产生一个问题，那就是随着时间的推移，hdfs文件系统中的edits文件会越来越大，这是hdfs文件系统会将edits文件进行切分处理，以避免个别edits文件过大现象。那么，是那个用户来统筹和操作edits文件呢？答案是Namenode用户。

2023-11-29 22:30:10 548

原创八、hdfs文件系统副本块数量的配置

【代码】八、hdfs文件系统副本块数量的配置。

2023-11-29 21:39:53 822

原创二、爬虫-爬取肯德基在北京的店铺地址

针对这个案例，现在对爬虫的基础使用做总结如下：1、算法框架(1)设定传入参数~url:当前整个页面的url:当前页面的网址当前页面某个局部的url:打开检查~data:需要爬取数据的关键字，即搜索内容~param:需要获取哪些(类型)的数据，即数据类型~headers:UA伪装(2)得到get/post请求响应根据”检查“结果进行判断:get请求:response=requests.get(url=**,data=**,param=**,headers=**)

2023-11-22 23:07:53 1868

原创一、爬虫-爬取豆瓣电影案例

你需要一个pycharm和requests第三方库，在安装完成之后即可继续浏览。

2023-11-22 22:11:12 1320 1

原创七、HDFS文件系统的存储原理

之所以把总结放在文件开头，是为了让读者对这篇文章有更好的理解，（其实是因为我比较懒……）对于整个HDFS文件系统的存储原理，我们可以总结为一句话，那就是：分块+备份。

2023-11-21 23:57:35 263

原创六、Big Data Tools安装

在Jetbrains的任意一款产品中，均可安装Big Data Tools这个插件。

2023-11-21 23:29:01 695

原创五、hdfs常见权限问题

如果想使用root用户对hdfs文件系统进行操作，就需要使用Hadoop用户调整root用户的权限，将root用户放入supergroup这个组。在Hadoop文件系统中，Hadoop用户相当于Linux系统中的root用户，是最高级别用户。没有使用Hadoop用户对hdfs文件系统进行操作。

2023-11-19 10:25:43 401

原创四、hdfs文件系统基础操作-保姆级教程

其实hdfs作为分布式存储的文件系统，其构成和Linux文件系统构成差不多一样，均是以“/”作为根目录的组织形式。在学习hdfs文件系统基础操作之后，你会发现hdfs文件系统的操作和Linux文件系统的操作十分相似，两者之间为数不多的区别就是hdfs文件系统在使用命令名时，需要在命令名前加上“-”。

2023-11-18 13:25:24 627

原创三、hadoop配置（保姆级别教程）

在各种配置文件中，我们都是以root用户进行操作的，普通用户hadoop并没有操作权限，现在我们需要对普通用户hadoop进行授权。配置hadoop-env.sh，这个文件作用主要是Hadoop运行的环境变量。在确保所用node都给Hadoop用户进行授权之后，格式化整个文件系统。在node2、node3上构建软连接。gz上传文件，解压文件，创建软连接。配置core-site。修改hdfs-site.xml文件。修改workers文件。创建nn、dn文件夹。授权hadoop用户。

2023-11-06 20:02:54 877

原创二、Hadoop分布式系统基础架构

分布式体系中，会存在众多服务器，会造成混乱等情况。那如何让众多服务器一起工作，高效且不出现问题呢？

2023-11-05 23:32:58 933 1

原创一、Hadoop初始化配置(final+ubuntu保姆级教程)

设置-》网络-》点击-》将ipv4调整为手动-》修改地址、子网掩码、网关、dns。

2023-11-04 00:58:41 1266

原创四十三、【进阶】前缀索引

简单点说，前缀索引就是当索引字段类型较大时，有时候需要索引很长的字符串，查询时，会浪费更大的空间，此时可以只对该索引的一部分前缀建立索引，可以大大的节省空间。前缀索引一般配合选择度进行使用，选择度=（非重复元素的总数）/（该列元素的总数），选择度等于1时，代表该字段下无重复元素，选择度始终小于等于1。

2023-11-01 20:52:50 186

原创 1、Flink基础概念

（1）、数据流上的有状态计算（2）、框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。（3）、事件驱动型应用，有数据流就进行处理，无数据流就不进行处理，就像挤牙膏一样。（4）、无界数据流&&有界数据流：其中，无界数据流就相当于水龙头，流的开始就是打开水龙头，但原则上，只要不关闭水龙头，水就会一直流下去，所以没有定义流的结束。有界数据流，相当于给一个水桶中装满水，水桶底部存在一个小孔，流的开始就是水桶滴下第一滴水，流的结束就是滴下最后一滴水。

2023-11-01 09:36:56 543

原创四十二、【进阶】覆盖索引

当使用二级索引name字段查询时，先走辅助索引，查到name字段对应的id值，按照执行规则来说，应该根据得到的id值，去聚集索引中查询数据，但因为需要输出的字段为“id和name”，而现在已经得到了“id和name”字段的信息，所以不需要回表查询，这就是所谓的覆盖索引。由于MySQL的存储结构是B+树，那么当进行主键索引查询时，只需要查询依次表，即可输出索要查询的内容。先走二级索引去查询，拿到查询之后的结果，根据拿到的结果去聚集索引中加载数据，这就加回表查询。对于上述两种查询方式，使用*查询性能比较低。

2023-10-31 20:58:13 143

二、爬虫-爬取肯德基在北京的店铺地址

1、爬虫-爬取豆瓣电影案例

空空如也