麦嘟学编程-CSDN博客

原创快速配置 HBase 完全分布式（依赖已部署的 Hadoop+ZooKeeper）

本文介绍了HBase 2.2.7分布式集群的安装配置流程。在已部署Hadoop和Zookeeper的基础上，主要完成以下步骤：1)下载解压HBase到指定目录；2)配置环境变量并同步到各节点；3)修改hbase-env.sh、hbase-site.xml和regionservers三个核心配置文件；4)启动HBase集群（需先启动Hadoop和ZK）。文章重点提示了常见问题的排查方法：HMaster秒退需检查HDFS路径和ZK配置，RegionServer失败需确认配置一致性，并给出具体解决方案。最后强调分

2025-11-12 11:29:31 612

原创快速安装idea社区版本以及基本设置

本文介绍IntelliJ IDEA社区版的安装与配置指南。主要内容包括：1.官网下载安装社区版，步骤简单；2.推荐安装常用插件如MyBatis、Lombok、阿里巴巴开发规范、Rainbow Brackets等；3.基础设置包括界面调整、自动导包、编码设置等；4.添加Maven配置文件以便后续项目管理。文中特别说明2024.2版开始内置中文语言包，无需手动安装汉化插件。社区版完全免费，适合学习使用，通过合理配置可大幅提升开发效率。

2025-11-10 17:31:01 872

原创开发环境搭建之JDK11+maven3.9.8+tomcat9安装

3、环境变量配置，前面打开环境变量的步骤与jdk相同。此电脑-》右击-》属性-》高级系统设置-》环境变量。新建，JAVA_HOME C:\Program Files\Java\jdk-11。windows+R 输入cmd进入窗口，输入命令 mvn -version.双击Path，打开窗口后，新建插入%MAVEN_HOME%\bin。2、环境变量配置，这样后期可以直接在命令行窗口运行启动服务的命令。3.测试： windows+R输入cmd 进入窗口，输入命令。选择此电脑--》右击--》属性。

2025-11-10 15:37:33 801

原创快速上手配置Zookeeper

将master节点下的 /opt/module/zookeeper-3.5.3-beta目录和/opt/data/zookeeper目录同步到slave01,slave02节点中。6.在master 节点的/opt/data/zookeeper/zkData创建文件myid编辑数字1。（1）修改slave01节点中/opt/data/zookeeper/zkData/myid文件内容为2。（2）修改slave01节点中/opt/data/zookeeper/zkData/myid文件内容为3。

2025-11-09 21:39:32 847

原创重启虚拟机后，静态IP地址通过ip addr无法查看，也就无法实现远程连接 ---- 兜底解决方案

虚拟机网络连接故障的解决方案：当静态IP地址无法显示时，可通过禁用NetworkManager服务并直接启动网卡的方式解决。具体步骤为：1)彻底禁用NetworkManager服务；2)使用ifup命令直接加载ens33网卡配置；3)验证IP地址是否生效。该方法不仅即时有效，重启后仍可保持配置，并支持远程连接。这种操作绕过了服务层面的冲突，是解决网络服务启动失败的实用方案。

2025-11-06 16:57:43 360

原创为什么安装epel-release

简单说，epel-release 是 CentOS 系统配置 Hadoop 模板机的 “刚需工具”—— 它能帮你快速装到官方源没有的基础工具，避免后续搭集群时 “卡壳”，完美契合模板机 “标准化、高效率” 的核心目标。在你的 Hadoop 模板机配置流程中（尤其是用 CentOS 系统时），epel-release 能解决多个实际问题，避免 “想装软件却找不到源” 的麻烦：。后续用模板机搭 Hadoop 集群时，可能需要装一些周边工具（如监控、日志分析工具），这些工具往往依赖 epel 源，比如：。

2025-10-31 15:55:34 692

原创 hadoop专栏更新数据说明

hadoop专栏更新数据说明

2025-10-30 09:59:17 143

原创数据库中求最小函数依赖集-最后附解题过程

简单来讲，最小函数依赖集就是在满足给定关系模式的所有函数依赖中，去掉那些冗余的依赖，得到的一个 “精简版” 集合。它就像给你的书架做整理，把那些重复、不必要的书都拿走，留下最核心、最有用的📚。比如，有函数依赖集 F = {A→B, A→C, B→C}，其实 A→C 就是冗余的，因为从 A→B 和 B→C 能推导出来，最小函数依赖集就可以简化为 {A→B, B→C}。

2025-05-30 14:54:09 859

原创在使用 yum 安装 epel-release 包时，如果遇到类似于“Loading mirror...”的提示 “未知的错误”解决方法

其中centos-base.repo 文件是 CentOS 系统中用于配置 YUM（Yellowdog Updater, Modified）或 DNF（Dandified YUM）软件包管理器的仓库（repository）配置文件。它定义了 CentOS 系统的软件源（repository），使得用户可以通过这些源来安装、更新或管理软件包。输入epel-release 安装命令：sudo yum install -y epel-release。在使用yum命令安装repl-release时，报错。

2025-03-30 20:43:27 802

原创对关系运算中连接运算的理解

关系数据库中的连接运算（Join Operation）是关系代数的核心操作之一，用于将两个或多个关系（表）中的数据按照某种条件进行逻辑关联，生成一个新的关系表。连接运算是关系数据库中实现多表协作的核心工具，其灵活性和多样性（如内连接与外连接）能够满足不同场景的需求。理解连接运算的原理和分类，有助于设计高效的查询语句、优化数据库性能，并确保数据关联的逻辑正确性。在需要多条件关联的场景中，连接运算结合选择（Selection）和投影（Projection）操作，可高效完成查询。

2025-03-14 09:06:12 734

原创对专门的关系运算中-除运算的理解

除运算是一种二元运算，用于从关系表 RR 中查找满足与关系表 SS 中所有元组相关联的元组。形式上，除运算表示为：R÷S其中：R 是一个关系表，包含属性集 A 和 B（即 R(A,B)）。S是一个关系表，包含属性集 B（即 S(B)）。除运算的结果是一个新的关系表，包含属性集 A，且这些元组与 S 中的所有元组相关联。除运算是关系代数中一种强大的工具，用于解决“查找满足所有条件的元组”这类问题。虽然其实现步骤较为复杂，但通过关系代数或 SQL 查询，可以高效地完成相关操作。

2025-03-11 20:24:59 1344

原创使用异或完成两个整数的交换

在编程中，交换两个变量的值是一个常见的操作。通常，我们会使用一个临时变量来实现这一操作。然而，有一种巧妙的方法可以避免使用临时变量，即通过（XOR）来实现两数交换。

2025-03-11 19:37:45 645

原创爬取豆瓣图书信息并将图书提取出来保存到MongoDB中

=作者:\\s)(.*)", author, re.M)<=出版社:\\s)(.*)", company)# 分析HTML代码 xpath 获取内容使用正则表达式匹配所需字符串。# 获取要操作的集合如果此集合不存在会新建。# 从页面提取图书信息并保存到MongoDB数据库中。# 获取数据库对象如果db-books不存在新建。#选取节点获取所有的图书的div。# 将数据插入到数据库表中。# 将数据存储在列表中。#抓取URL页面，并保存到文件中。# 分页的四个Url地址。

2024-12-16 09:58:28 1344

原创 pyCharm无法正常安装python库的解决办法

1.使用pip命令进行安装，在安装过程中修改镜像源路径，改为国内镜像源，我一般使用阿里云的 https://mirrors.aliyun.com/pypi/simple/4.从Python Interpreter后的下拉列表中选择“show All”。，然后进入到下面界面操作。因为网络原因，部分电脑可以在pyCharm下载安装python库失败。3.打开Pycharm，创建项目后，该项目下文件安装后的库，需要自己切换下。通过Pip命令安装的库都加载到该项目下了。

2024-12-16 09:54:34 926

原创 MongoDB8.0安装步骤

高版本的安装过程中，已将Mongo Compass安装成功了，可以直接使用。双击文件进行安装，MongoDB安装步骤比较简单，只是时间稍微长点。下图界面大概持续时间在5~10分钟之间，请耐心等待。一般建议选择用户自定义安装。

2024-12-16 09:40:08 862

原创 JDK11安装

前期的课程和本学期的课程中我们使用的都是JDK11，部分同学电脑重装系统后，未安装JDK。今天重新复习下，首先官网下载JDK11，文件已发到微信群。4.3 修改Path路径，将%JAVA_HOME%\bin 插入到path中，且要放在Path属性值的最前面。windows+R --》输入cmd,在dos命令行输入以下命令。4.1选择此电脑--》右击--》属性，按以下步骤操作。必须配置，否则后续的web服务器无法正常启动。）且配置在系统变量中，不要在用户变量中配置。4.2 配置JAVA_HOME（

2024-11-27 11:21:56 2142

原创 04 万年历实现

本案例主要让大家熟悉开发工具和Python基础语法。2.新建python文件万年历.py。在pycharm创建项目。

2024-10-30 11:00:10 271

原创 03 安装pycharm

PyCharm是一种Python IDE（Integrated Development Environment，集成开发环境），带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、项目管理、代码跳转、智能提示、自动完成、单元测试、版本控制。5.在下图界面中，选择“否，我会在之后重新启动”，点击“完成”。4.点击“安装”等待安装成功后，点击“下一步”，时间稍微长一点。3.弹出的界面上，将所有的复选框都选择中，点击“下一步”。1.双击软件进行安装，点击“下一步”。

2024-07-30 11:02:01 528

原创 02 pip指令的使用

我们在运行pip install命令时默认从官网下载指定的python包，但由于该官网属于国外网站，但网络不稳定的情况下，下载速度非常慢或下载失败，我们可以通过命令修改pip下载软件包的源。清华大学 TUNA 镜像源：https://pypi.tuna.tsinghua.edu.cn/simple/中国科技大学镜像源：https://pypi.mirrors.ustc.edu.cn/simple/北京外国语大学镜像源：https://pypi.mirrors.bfu.edu.cn/simple/

2024-07-30 10:48:20 1380

原创 01 Python环境安装

提供了支持不同操作系统的安装包，目前最新版本为Python3.12，但在学习阶段一般不推荐大家使用最新版本的软件，因为对于其他软件需要该环境时，还不支持最新版本的环境。（注意：安装前记得勾选添加路径，若忘记了，后续需要自己手动添加）。2.点击windows进入下载界面，滚动页面往下拉，我选择了Python3.9.6版本的。10.在命令行输入python --version.显示版本信息，说明安装成功。8.上图进程完成后，进入以下界面，说明安装成功。1.进入官网选择合适的版本，进行下载。

2024-07-30 09:49:16 721

原创 hive分析学生、课程、成绩相关的数据

1.将测试数据存放到？home/yt用户目录下。三张内部表在HDFS上生成了相对应的目录。3.将测试数据装载到对应的表中。2.进入Hive，创建表。

2024-06-06 11:36:55 407

原创 Hive 基本操作

3.进入hive,切换到db_test库（如没有，可以先创建 create database db_test）2.将学生信息上传到/bigdata/hive/hive_stu目录下。1.启动Hadoop集群。

2024-06-05 11:26:45 466 1

原创 28 hive安装-本地模式

用户名密码

2024-05-30 11:36:37 475

原创 27 Hive安装-内嵌模式

（2）由于hive3.1.2内的 guava-19.0.jar版本较低，需要删除，再将hadoop3.1.4中的 guava-27.0-jre.jar复制过来。5.修改配置文件/etc/profie.d/my_env.sh文件，添加环境变量。（1）弃用log4j-slf4j-impl-2.10.0.jar。2.上传到master节点的/opt/software目录下。6.初始化元数据库（默认数据库时derby）3.解压到/opt/module目录下。（2）保存并退出，刷新配置文件。7.解决日志包冲突问题，

2024-05-30 10:41:13 605

原创 26 centos7.8安装Mysql8.4

在集群中=我们选择将Mysql安装在slave01节点上。1.在官网下载mysql安装包MySQL :: Download MySQL Yum Repository下载后上传到slave01节点的/opt/software目录下。2.切换到root用户下3.查看和删除安装的MySQL软件包和依赖包rpm -pa | grep mysql若找到了相关的mysql文件，执行以下名删除文件。（此处没有找到）yum remove mysql-*****(需要删除

2024-05-30 09:34:47 892

原创 25 使用MapReduce编程了解垃圾分类情况

1.通过finalshell 上传到master节点，再使用hdfs命令上传到HDFS文件系统的/bigdata目录下（也可使用Java API 实现上传）统计数据中各类型垃圾的数量，分别存储可回收垃圾、有害垃圾、湿垃圾和干垃圾的统计结果。（存储到4个不同文件中，垃圾信息）测试数据中1表示可回收垃圾，2表示有害垃圾，4表示湿垃圾，8表示干垃圾。（1）自定义键的类型垃圾名称，垃圾分类编号，垃圾分类名称。（1）统计各类型垃圾数量需要自定义计数器。（2）分别存储垃圾信息，需要自定义分区。

2024-05-29 11:06:45 735 2

原创 24 使用MapReduce编程统计各科目成绩最高的学生

2.创建Maven项目，修改配置pom.xml文件，添加log4j.properties(步骤省略)7.编写Driver模块此类需要继承 Configured 实现 Tool接口。最后直接运行主类ScoreCount.1.准备测试数据并上传至HDFS中。3.自定义值的类型Student。(1)当前项目下生成jar文件。5.编写Reducer模块。（2）控制台输出了日志信息。4.编写Mapper模块。6.编写JarUtil。

2024-05-22 10:46:11 2209 6

原创 IDEA自动打包执行报错Exception in thread “main“ org.apache.hadoop.security.AccessControlException: Permission

使用idea自动打包mapreduce程序并直接运行，代码错误：Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=AOC, access=EXECUTE, inode="/tmp":yt:supergroup:drwxrwx---。这是与hadoop权限有关，我们集群启动是yt用户，安全模式用户也是yt,没有在集群中配置windows的用户。

2024-05-20 17:49:59 591

原创 23 在IDEA中自动打包MapReduce程序并执行

注意：代码执行过程中出现权限问题：一定要去环境变量中配置HADOOP_USER_NAME变量，详见。2.修改驱动类：继承 Configured 实现Tool。1.编写JarUtil工具类，完成xxx.jar打包操作。（2）在IDEA的控制台可以看到日志输出信息。（1）在项目的当前目录下会生成jar文件。上修改驱动类的代码，完成自动打包操作。3.运行LogCount类。

2024-05-20 17:45:17 750 1

原创 Hadoop Java API操作及读取序列化文件（04-05-06）

/单元测试每个操作放在一个测试方法中，选中方法名---》右击运行testList()//2.获取文件系统对象 yt启动集群的用户名。//2.获取文件系统对象 yt启动集群的用户名。//2.获取文件系统对象 yt启动集群的用户名。//2.获取文件系统对象 yt启动集群的用户名。//2.获取文件系统对象 yt启动集群的用户名。//2.获取文件系统对象 yt启动集群的用户名。//3.获取HDFS根目录下的子目录和文件。//读取序列化文件中的数据保存到本次磁盘。//1.创建配置对象。

2024-05-15 17:02:28 783

原创 22 优化日志文件统计程序-按月份统计每个用户每天的访问次数

1.自定义键的类型 MemberLogTime 包含两个属性(memberId,memberLogTime) 实现WritableComparable接口。//将用户ID和访问时间存到MemberLogTime对象中。3.在resources目录下创建日志文件log4j.properties。7.使用Maven打包为Jar文件，上传到master节点上执行。2.编写Mapper模块：（在Mapper中计数器，使用枚举）//一月计数器值+1。//设置reduce任务数2。//计数器（动态计数器）

2024-05-15 10:55:08 1308

原创 21 使用Hadoop Java API读取序列化文件

1.我直接在上一个项目中test/java目录下创建com.maidu.selectdata.test.APITest类，test目录下的内容在打包时不会出现在jar文件中，仅供测试所用。在上一个实验中我们筛选了竞赛网站日志数据中2021/1和2021/2的数据以序列化的形式写到了hdfs上。接下来我们使用Java API 读取序列化的数据保存到磁盘中。3.运行选择方法名右击运行。4.进入D盘查看文件。

2024-05-08 10:42:48 595

原创 20 筛选日志并生成序列化文件

System.out.println("必须输入文件输入路径和输出路径");3.本次只需要进行序列化操作，所以不需要Reducer模块，编写Mapper模块。5、使用maven打包为jar,上传到master上。1.在idea中创建项目 selectData.2.添加依赖，插件包，指定打包方式，日志文件。//设置reduce任务为0。大家可以直接从前面项目复制。4、编写Driver模块。

2024-04-25 11:48:16 1245 2

原创集群移植到本机上

2、修改版本-由于我给大家发的VM16，而教师机上安装的是VM17，那在我们那边打开会有问题，修改下版本信息即可。4、拷贝过去的虚拟机跟你电脑的上的虚拟网络不是同一网段，大家不要修改虚拟机中，直接修改VM上以及windows系统下的。很多同学集群没有搭建成功，为了后续的课程大家可以从教师机拷贝整个集群到自己的电脑上。master,slave01,slave02,hadoop100都需要修改。3、在VM上打开虚拟机，选择对应的虚拟机。6、配置windows系统下的虚拟机。5、修改VM 可以参考前面的文章。

2024-04-25 11:14:50 348 5

原创 19 使用MapReduce编程统计超市1月商品被购买的次数

/3 水果水果作为键值 1(数量1 不是 3 表示用户编号)在com.maidu.ordercount包中创建一个新类ShoppingOrderCount类，编写以下模块。首先将1月份的订单数据上传到HDFS上，订单数据格式 ID Goods两个数据字段构成。System.out.println("必须输入读取文件路径和输出文件路径");将订单数据保存在order.txt中，（上传前记得启动集群）。在ShoppingOrderCount类中编写主方法。修改pom.xml，添加依赖。

2024-04-24 11:34:13 3448

原创 18 统计网站每日的访问次数

每条数据的字段值之间使用逗号隔开的，最终时间是第五个自动，获取第五个字段值的中的年月日。2.通过Idea创建项目mr-raceData ,基础的配置。编写代码后，需要将其打成Jar包，需要修改pom.xml。通过浏览器访问hdfs,查看该文档前面的部分数据。拷贝到桌面，上传的master的当前用户目录下。1.将竞赛的数据上传HDFS,查看数据的格式。执行jar文件，实现访问每条访问次数的统计。将竞赛日志数据取部分上传到hdfs上。最后使用maven打包为Jar。制定打包的方式为jar。

2024-04-17 11:51:06 2672

原创 17 如何查看Hadoop中wordCount源码

我们使用的是hadoop-3.1.4版本，直接进入官网进行下载：下载得到的文件如下图所示：

2024-04-11 11:50:36 400 4

原创 16 Java API操作HDFS

参数的优先级：1.客户端的代码中 > 2.ClassPath下自定义的文件> 3.服务器中自定义的（集群中）我们在windows平台下，使用Java代码作为客户端访问HDFS，对他进行相关的操作。hadoop集群中默认的副本是3，接下来代码中设置副本数为2，执行以下代码，看看最终副本数是多少？2.在pom.xml文件中添加依赖（注意：初次使用需要连接外网，需要下载对应的依赖文件）4.目前直接使用单元测试进行操作，我们源代码文件直接创建在test/java/目录下。6.实现文件上传，设置创建的副本数。

2024-04-08 21:27:04 1200

原创 SQLServer2022安装

7.功能选择使用功能选择数据库引擎服务，建议将目录改为非系统盘，如果大家不想自定义路径，建议直接将C 改为D即可。注意：在运行时最好获取管理员权限运行，第一次在安装时未获取管理员权限最终安装失败，卸载后重新安装，以管理员权限运行最终成功了。2.进入安装界面，选择第一个“全新SQLServer独立安装或向享有安装添加功能”等待安装完成，需要10分钟时间，大家耐心等待，安装完成后，再安装SSMS，后面不再截图。9.服务配置：启动类型都改为自动，后期熟练使用后，建议进入服务，修改启动类型为“手动”

2024-04-07 08:50:52 1829

原创 window安装maven和hadoop3.1.4

大家不用去官网下载，直接使用我发给大家的压缩文件，注意解压后的文件夹不要放在中文目录下，课堂上我们讲解过原因。前面的文章已讲解如何安装idea和进行基本设置，本文主要带着大家安装配置好maven和hadoop.这是我电脑上的路径，大家最好都放在D:\\software目录下。显示版本信息，说明配置成功。最后打开命令行窗口输入。

2024-04-06 12:45:55 940 4

windows下的hadoop-3.1.4

空空如也