![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 70
Hadoop
qq_duhai
好记性不如烂笔头...
展开
-
hadoop snapshot 备份恢复
api地址请见http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.5.0-cdh5.2.0/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html。第一次快照 bak1 时候 没有snaptest文件夹,现在多了snaptest文件夹,再创建一次快照。首先,在你想要进行备份的文件夹下面 执行命令,允许该文件夹创建快照。进行快照之间的对比,看到两个快照之间备份文件的区别。报错,可见,只能在你允许的目录下面建立快照;转载 2023-09-11 14:35:23 · 198 阅读 · 0 评论 -
Filesystem closed报错问题处理
使用HDFS的时候问题原因为:多线程访问问题,线程A、B同时获取filesystem后使用,线程B使用完后调用了filesystem.close()方法,这个时候线程A还在操作filesystem,所以报错上面种种异常。原创 2023-02-02 14:01:45 · 1511 阅读 · 0 评论 -
ava API操作HDFS(HA模式)
Java API 操作HDFS一般有两种方式:使用HDFS客户端配置文件自动配置Java 代码中配置创建Maven项目,将下载的客户端配置文件 、 放入(注意:放到 resources根目录下)使用Java代码进行配置,则就不需要下载HDFS客户端配置文件了Java 代码中的配置从 中查找:删除HDFS客户端配置文件:执行结果:建议使用第一种:HDFS客户端配置文件进行操作HDFS, 因为当HDFS配置更改时,只需要替换配置文件即可,更加灵活。转载 2022-12-07 09:18:31 · 141 阅读 · 0 评论 -
HDFS常用命令
通过查看Hadoop的命令 与 hdfs 的命令并不相同,且不存在包含关系。仅仅是 hadoop fs 与 hdfs dfs 可以等价。转载 2022-09-15 09:49:55 · 2578 阅读 · 0 评论 -
Ambari WebUI-集群管理操作使用说明
【总览】【集群操作】【配置文件下载】【图表操作】【图表时间配置】【集群总体监控图表】Memory Usage:整个集群的内存使用情况,包括 cached,swapped,used,和shared。Network usage:整个就群的网络流量,包括上行和下行;CPU Usage:集群的CPU使用情况;Cluster Load:集群整体加载信息,包括节点数目,总CPU个数,正在运行的进程【HDFS层面】左图:整个集群的磁盘使用情况。右图:DFS的使用情况;non DFS的使用情况;转载 2022-09-14 14:59:05 · 1067 阅读 · 0 评论 -
spark单机版安装
安装 Spark 之前需要先安装 Java,Scala 及 Python。一、安装javajava安装过程不在多说,可以在我其他文章中查找,下面附上java SE JDK下载链接http://www.oracle.com/technetwork/java/javase/downloads/index.html查看java版本1.2 安装 Scala[hadoop@cnbugs ~]$ wget https://downloads.lightbend.com/scala/.转载 2022-02-18 15:35:23 · 1825 阅读 · 0 评论 -
hadoop2.7.3在centos7上部署安装(单机版)
(1)hadoop2.7.3下载(前提:先安装java环境)下载地址:http://hadoop.apache.org/releases.html(注意是binary文件,source那个是源码)(2)解压tar.gz(3)配置hadoop1.修改/usr/hadoop/hadoop-2.7.3/etc/hadoop/hadoop-env.sh 文件的java环境,将java安装路径加进去:export JAVA_HOME=/alidata/server/java-1.7转载 2022-02-17 10:36:32 · 253 阅读 · 0 评论 -
spark-submit 参数
1、基础:spark基本的提交语句:./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value> \ ... # other options <ap...原创 2019-12-11 15:47:22 · 3679 阅读 · 0 评论 -
Hadoop YARN中web服务的REST API介绍
Hadoop YARN自带了一系列的web service REST API,我们可以通过这些web service访问集群(cluster)、节点(nodes)、应用(application)以及应用的历史信息。根据API返回的类型,这些URL源归会类到不同的组。一些API返回collector类型的,有些返回singleton类型。这些web service REST API的语法如下:...转载 2019-12-11 15:11:39 · 812 阅读 · 0 评论 -
yarn常用命令
1,yarn top类似linux里的top命令,查看正在运行的程序资源使用情况2, yarn queue -status root.users.xxxx查看指定queue使用情况3,yarn application -list -appStates 【ALL,NEW,NEW_SAVING,SUBMITTED,ACCEPTED,RUNNING,FINISHED,FAIL...转载 2019-12-11 15:04:55 · 278 阅读 · 0 评论 -
Hadoop 之 日志管理——应用在 YARN 中运行时的日志
背景:在写这篇博文前,自己一直没有弄明白一个问题,“在 Map 函数和 Reduce 函数中使用 System.out.print 打印日志时,输出内容在哪里显示?”。试了好多回,在 log/* 目录下找了很久都没有找到,并且尝试了很多次去找,都没有成功。这让我想通过此方法调试 Map/Reduce 函数以失败告终。最后,一次偶然的机会让我发现了关于日志的玄机。通过自己的观察和阅读参考书籍...转载 2019-12-11 11:02:13 · 286 阅读 · 0 评论 -
yarn 日志聚集配置
日志聚集相关配置参数日志聚集是YARN提供的日志中央化管理功能,它能将运行完成的Container/任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制。默认情况下,Container/任务日志存在在各个NodeManager上,如果启用日志聚集功能需要额外的配置。日志聚合/集 yarn资源管理器模式提供了日志聚合功能,通过参数ya...原创 2019-12-11 09:59:03 · 1544 阅读 · 0 评论 -
yarn application命令介绍
1、-list 列出所有 application 信息 示例:yarn application -list2、-appStates <States> 跟 -list 一起使用,用来筛选不同状态的 application,多个用","分隔; 所有状态:ALL,NEW,NEW_SAVING,SUBMITTED,ACCEPTED,RUNNING,F...原创 2019-12-11 09:43:34 · 305 阅读 · 0 评论 -
HDFS的fs.defaultFS的端口
查看所有正在使用的端口:netstat -ntlp在hadoop2的HDFS中fs.defaultFS在core-site.xml 中配置,默认端口是8020,但是由于其接收Client连接的RPC端口,所以如果在hdfs-site.xml中配置了RPC端口9000,所以fs.defaultFS端口变为9000如图查看:netstat -lent | grep 9000端口 ...原创 2019-12-09 16:42:15 · 11531 阅读 · 1 评论 -
spark各个版本下载
http://www.apache.org/dist/spark原创 2019-12-09 14:17:08 · 6255 阅读 · 0 评论 -
Hadoop环境搭建(单机)
一、环境选择1,服务器选择阿里云服务器:入门型(按量付费)操作系统:linux CentOS 6.8Cpu:1核内存:1G硬盘:40Gip:39.108.77.2502,配置选择JDK:1.8 (jdk-8u144-linux-x64.tar.gz)Hadoop:2.8.2 (hadoop-2.8.2.tar.gz)3,下载地址官网地址:JDK:http://...转载 2019-12-09 14:15:12 · 197 阅读 · 0 评论 -
Spark on Yarn 单机环境搭建
前面已经安装好hadoop和yarn:https://blog.csdn.net/qq_16504067/article/details/103401096jdk1.8安装包: 官方下载:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html选择linux_x64。 scal...原创 2019-12-09 09:03:43 · 908 阅读 · 0 评论 -
Hadoop HDFS 搭建 Hadoop YARN 搭建
Hadoop HDFS 搭建https://blog.csdn.net/qq_24505127/article/details/80397571Hadoop YARN 搭建https://blog.csdn.net/qq_24505127/article/details/80397604Hadoop环境搭建(单机)https://www.cnblogs.com/xuwujing...原创 2019-12-05 11:10:04 · 327 阅读 · 0 评论 -
hadoop 各个版本下载地址。
https://archive.apache.org/dist/hadoop/common/原创 2019-12-05 15:28:23 · 269 阅读 · 0 评论 -
大数据的一些相关知识介绍
什么是大数据 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据的定义是4Vs:Volume、Velocity、Variety、Veracity。用中文简单描述就是大、快、多、真。 Volume —— 数据量大 随着技...转载 2019-12-05 14:09:07 · 185 阅读 · 0 评论