发家致富¥-CSDN博客

原创查看当前hadoop集群的计算资源信息

http://master:8088/cluster/nodes

2024-03-27 09:06:24 121

原创 hadoop 查询hdfs资源信息的方式

hdfs dfsadmin -report ［-live］［-dead］［-decommissioning］

2024-03-27 09:00:38 473

原创大数据分析课----实时更新

在Windows操作系统中，可以在开始菜单中找到Anaconda Navigator应用程序的快捷方式，点击打开即可。自己的电脑选第一个；学校的话选All Users；此时点击Jupyter Notebook下的。选择自己存放的目录；打开后可以看到这样的界面就成功啦。在终端查看版本出现就表示成功；然后安装好直接点next。点 i agree；

2024-03-05 20:04:32 431

原创 Scala语言

要有Scala环境、Java环境；先明确scala位置；

2024-03-04 10:59:24 512 1

原创 standalone安装部署

所有集群都有安装python和anaconda;出现（base）即可；查看有没有sparklog；分别在两台上创建pyspark虚拟机；将master的内容复制过来即可；把info改为warn；分别在两个节点安装;

2024-02-18 19:36:42 714

原创在Linux上安装Anaconda

1：传包；ll3：安装回撤；这是信息不必查看；按空格跳过；输入yes；输入要安装的位置；（等待两分钟）是否对它实行初始化；yes；安装完成！重新进入终端可以看见base；表示安装完成！base表示基础的环境。

2024-02-13 13:17:04 524 1

完成on yarn 相关配置，使用spark on yarn 的模式提交$SPARK_HOME/examples/jars/spark-examples_2.12.3.11.jar。3:设置spark，yarn是hadoop的一部分，必须启动hadoop时才会运行，spark中配置的和hadoop有关的；运行的主类为org.apache.spark.examples.SparkPi。spark 仅仅替代了hadoop的mapraduce；spark比hadoop快一百倍；Apache Spark是用于。

2024-02-12 17:20:56 954 1

原创 flume 配置

【代码】flume 配置。

2024-02-05 15:51:47 467 1

原创 zookeeper-----客户端命令操作

【代码】zookeeper-----客户端命令操作。

2024-02-02 12:52:51 456

原创从头开始 ------- Zookeeper(部署)

4：分发并修改其他两个节点（slave1，slave2）myid的值；master写入1，slave1写入2，slave2写入3；5：三个节点都启动zookeeper；1：下载并解压Zookeeper；两个follower。

2024-02-02 08:00:00 531

原创 python ------ 函数

如果一个函数要有多个返回值，逗号隔开就行；类型也不限制。

2024-02-01 08:00:00 298 1

原创 python ------文件操作

f = open("D:/测试.txt", "r", encoding="UTF-8")#print(f"读取全部行封装到列表中，内容是{f.readlines()}")#print(f"读取第一行，内容是{f.readline()}")#print(f"读取第二行，内容是{f.readline()}")#print(f"读取第三行，内容是{f.readline()}")#print(f"读取全部内容的结果{f.read()}")print(f"每一行是{line}")# 读取文件-readLines()

2024-01-31 08:00:00 343

原创 python ---- 异常

print("我是else，是没有异常执行的代码")print("我是else，是没有异常执行的代码")print("出现了变量未定义的异常")异常的finally：有没有异常都要执行！如果出现异常执行的代码。异常 else：没有异常执行。快捷键Ctrl+Alt+t。exception顶级异常。

2024-01-30 08:00:00 1135 1

原创 Hive(HiveServer2 & Beeline)

bin/hive--service hiveserver2 启动的是hiveserver2服务；bin/hive--service metastore 启动的是元数据管理服务；方式一：bin/hive 是hive的shell客户端，可直接写sql。方式二：bin/hive--service hiveserver2。hive 有两种方式写SQL；

2024-01-28 21:17:14 438 1

原创 Hive初体验

{runjar就是metastore；hadoop要先启动 }进入到Hive Shell 环境中，可以直接执行SQL的语句；首先，确保启动了Metastore服务。

2024-01-26 20:24:20 1224 1

原创 Hive在VMware中部署

如果你想设置简单密码，需要设置mysql密码安全级别：(进入mysql中实行)在core-site.xml 添加；并分发，且重启hdfs集群。1：先导hive的包；3：用mv将hive-3.1.3移到hive里；然后就可以简单密码了：(进入mysql中实行)步骤四：下载mysql驱动包。表示允许root用户代理。步骤一：安装mysql。步骤五：配置hive。

2024-01-23 21:06:37 613 1

原创 MapReduce配置 & YARN集群部署

2:编辑mapred-site.xml；1：编辑mapred-env.sh；3:编辑yarn-env.sh;分发完成就可以启动YARN的相关进程了。在当前机器也可以单独启动或停止进程。历史服务器启动和停止。

2024-01-21 16:03:25 572 1

原创通过hadoop jar命令运行提交MapReduce到YARN中

在hadoop下找hadoop-mapreduce-examples-3.1.3.jar。将输入路径内的数据中的单词进行计数，将结果写到输出路径。将word.txt放入hadoop的input文件夹下。大概流程：给定数据输入的路径，给定结果输出的路径；在hadoop下创建input和output文件夹。通过如下查看hadoop下已有文件。编辑一个文档word.txt。实现 Wordcount。切换到home路径（~）

2024-01-20 14:54:34 864

原创部署Hadoop集群

这些文件都存在$hadoop_home/etc/hadoop文件夹中；1）准备好hadoop安装包；目前最新3.3.4；1：在VMware虚拟机集群上部署HDFS集群。③：构建软连接也可改名（修改文件名用mv）把root权限改成hadoop用户的权限。①：上传hadoop到node1节点；表明集群记录了三个从节点（aNode）在node1节点执行，以root身份。配置hadoop的环境变量并分发。2）上传解压hadoop。

2024-01-15 15:45:17 402

原创 Linux 修改时区并配置自动时间同步

1：安装ntp软件yum install -y ntp2:更新时区rm -f /etc/localtime；sudo ln -s /usr/share/zoneinfo/Asia/shanghai /etc/localtime3:同步时间ntpdate -u ntp.aliyun.com4:开启ntp服务并设置开机自启动systemctl start ntpdsystemctl enable ntpd

2024-01-14 14:39:02 645 1

原创 CentOS7搭建Web网站

linux的Web服务是指在Linux操作系统上运行的Web服务器软件或程序。Web服务器软件是一种服务器端软件，用于向客户端提供Web页面、文件、图像等信息。常见的Linux Web服务器软件有Apache、Nginx、Lighttpd等。

2023-12-15 15:45:02 398

m0_75237906的博客