- 博客(22)
- 收藏
- 关注
原创 hadoop 查询hdfs资源信息的方式
hdfs dfsadmin -report [-live][-dead][-decommissioning]
2024-03-27 09:00:38
473
原创 大数据分析课----实时更新
在Windows操作系统中,可以在开始菜单中找到Anaconda Navigator应用程序的快捷方式,点击打开即可。自己的电脑选第一个;学校的话选All Users;此时点击Jupyter Notebook下的。选择自己存放的目录;打开后可以看到这样的界面就成功啦。在终端查看版本出现就表示成功;然后安装好直接点next。点 i agree;
2024-03-05 20:04:32
431
原创 standalone安装部署
所有集群都有安装python和anaconda;出现(base)即可;查看有没有sparklog;分别在两台上创建pyspark虚拟机;将master的内容复制过来即可;把info改为warn;分别在两个节点安装;
2024-02-18 19:36:42
714
原创 在Linux上安装Anaconda
1:传包;ll3:安装回撤;这是信息不必查看;按空格跳过;输入yes;输入要安装的位置;(等待两分钟)是否对它实行初始化;yes;安装完成!重新进入终端可以看见base;表示安装完成!base表示基础的环境。
2024-02-13 13:17:04
524
1
原创 Spark---环境搭建---入门概念
完成on yarn 相关配置,使用spark on yarn 的模式提交$SPARK_HOME/examples/jars/spark-examples_2.12.3.11.jar。3:设置spark,yarn是hadoop的一部分,必须启动hadoop时才会运行,spark中配置的和hadoop有关的;运行的主类为org.apache.spark.examples.SparkPi。spark 仅仅替代了hadoop的mapraduce;spark比hadoop快一百倍;Apache Spark是用于。
2024-02-12 17:20:56
954
1
原创 从头开始 ------- Zookeeper(部署)
4:分发并修改其他两个节点(slave1,slave2)myid的值;master写入1,slave1写入2,slave2写入3;5:三个节点都启动zookeeper;1:下载并解压Zookeeper;两个follower。
2024-02-02 08:00:00
531
原创 python ------文件操作
f = open("D:/测试.txt", "r", encoding="UTF-8")#print(f"读取全部行封装到列表中,内容是{f.readlines()}")#print(f"读取第一行,内容是{f.readline()}")#print(f"读取第二行,内容是{f.readline()}")#print(f"读取第三行,内容是{f.readline()}")#print(f"读取全部内容的结果{f.read()}")print(f"每一行是{line}")# 读取文件-readLines()
2024-01-31 08:00:00
343
原创 python ---- 异常
print("我是else,是没有异常执行的代码")print("我是else,是没有异常执行的代码")print("出现了变量未定义的异常")异常的finally:有没有异常都要执行!如果出现异常执行的代码。异常 else:没有异常执行。快捷键Ctrl+Alt+t。exception顶级异常。
2024-01-30 08:00:00
1135
1
原创 Hive(HiveServer2 & Beeline)
bin/hive--service hiveserver2 启动的是hiveserver2服务;bin/hive--service metastore 启动的是元数据管理服务;方式一:bin/hive 是hive的shell客户端,可直接写sql。方式二:bin/hive--service hiveserver2。hive 有两种方式写SQL;
2024-01-28 21:17:14
438
1
原创 Hive初体验
{runjar就是metastore;hadoop要先启动 }进入到Hive Shell 环境中,可以直接执行SQL的语句;首先,确保启动了Metastore服务。
2024-01-26 20:24:20
1224
1
原创 Hive在VMware中部署
如果你想设置简单密码,需要设置mysql密码安全级别:(进入mysql中实行)在core-site.xml 添加;并分发,且重启hdfs集群。1:先导hive的包;3:用mv将hive-3.1.3移到hive里;然后就可以简单密码了:(进入mysql中实行)步骤四:下载mysql驱动包。表示允许root用户代理。步骤一:安装mysql。步骤五:配置hive。
2024-01-23 21:06:37
613
1
原创 MapReduce配置 & YARN集群部署
2:编辑mapred-site.xml;1:编辑mapred-env.sh;3:编辑yarn-env.sh;分发完成就可以启动YARN的相关进程了。在当前机器也可以单独启动或停止进程。历史服务器启动和停止。
2024-01-21 16:03:25
572
1
原创 通过hadoop jar命令运行提交MapReduce到YARN中
在hadoop下找hadoop-mapreduce-examples-3.1.3.jar。将输入路径内的数据中的单词进行计数,将结果写到输出路径。将word.txt放入hadoop的input文件夹下。大概流程:给定数据输入的路径,给定结果输出的路径;在hadoop下创建input和output文件夹。通过如下查看hadoop下已有文件。编辑一个文档word.txt。实现 Wordcount。切换到home路径(~)
2024-01-20 14:54:34
864
原创 部署Hadoop集群
这些文件都存在$hadoop_home/etc/hadoop文件夹中;1)准备好hadoop安装包;目前最新3.3.4;1:在VMware虚拟机集群上部署HDFS集群。③:构建软连接也可改名(修改文件名用mv)把root权限改成hadoop用户的权限。①:上传hadoop到node1节点;表明集群记录了三个从节点(aNode)在node1节点执行,以root身份。配置hadoop的环境变量并分发。2)上传解压hadoop。
2024-01-15 15:45:17
402
原创 Linux 修改时区并配置自动时间同步
1:安装ntp软件yum install -y ntp2:更新时区rm -f /etc/localtime;sudo ln -s /usr/share/zoneinfo/Asia/shanghai /etc/localtime3:同步时间ntpdate -u ntp.aliyun.com4:开启ntp服务并设置开机自启动systemctl start ntpdsystemctl enable ntpd
2024-01-14 14:39:02
645
1
原创 CentOS7搭建Web网站
linux的Web服务是指在Linux操作系统上运行的Web服务器软件或程序。Web服务器软件是一种服务器端软件,用于向客户端提供Web页面、文件、图像等信息。常见的Linux Web服务器软件有Apache、Nginx、Lighttpd等。
2023-12-15 15:45:02
398
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人