Hadoop
文章平均质量分 80
Vicky_Tang
You still have lots more to work on!
展开
-
Yarn参数优化
YARN自从hadoop2.0之后, 我们可以使用apache yarn 来对集群资源进行管理。yarn把可以把资源(内存,CPU)以Container的方式进行划分隔离。YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后YARN会通过分配Container来给每个应用提供处理能力, Container(容器)是YARN中处理能力的基本单元, 是对内存, CPU等的封装(容器)。ResourceManager:以下简称RM。YAR原创 2021-10-12 16:21:40 · 1449 阅读 · 9 评论 -
HDFS文件误删怎么办,一招教你恢复回来,再也不用担心删库跑路了
本文基于 Hadoop3.1.2版本讲解HDFS 文件删除过程下面是hdfs删除路径的方法,源码路径org.apache.hadoop.hdfs.server.namenode.FSNamesystem.delete()/** * Remove the indicated file from namespace. * * @see ClientProtocol#delete(String, boolean) for detailed description and .原创 2021-09-25 14:20:32 · 3455 阅读 · 30 评论 -
大数据——Hadoop 知识点整理
1. 大数据的特点(4V特征)Volume(大数据量):90% 的数据是过去两年产生 Velocity(速度快):数据增长速度快,时效性高 Variety(多样化):数据种类和来源多样化 结构化数据、半结构化数据、非结构化数据 Value(价值密度低):需挖掘获取数据价值2. 谈谈 Hadoop 的优缺点优点:高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点 高可靠性:Hadoop底层维护多个数据副本 高容错性:Hadoop框架能够自动将失败的任务重新分配 低成本:Had原创 2021-09-07 19:46:26 · 9215 阅读 · 38 评论 -
大数据—— 使用 MapReduce 实现wordcount
一、创建 maven 工程并导入依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/x原创 2021-09-04 10:58:32 · 9890 阅读 · 1 评论 -
大数据——Hadoop集群调优
一、HDFS多目录存储1.1 生产环境服务器磁盘情况1.2 在hdfs-site.xml文件中配置多个目录,需要注意新挂载磁盘的访问权限问题。 HDFS中DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定,其默认值为file://${hadoop.tmp.dir}/dfs/data,若服务器中有多个磁盘,必须对改参数进行修改。如服务器磁盘如上图所示,则该参数应修改为如下的值。<property> <name&g...原创 2021-08-21 11:39:15 · 11869 阅读 · 3 评论 -
大数据——Hadoop3.1.3安装与配置
HADOOP 3.1.3安装与配置1、检查/etc/hosts中 ip hostname 映射20.0.0.1 主机名ip addrhotname2、本机免密cd ~ssh-keygen -t rsacat id_rsa.pub>>authorized_keysls .ssh/id_rsa id_rsa.pub authorized_keys [known_hosts]ssh root@主机名3、解压缩并重命名tar -zxvf /opt/download/had原创 2021-06-24 15:23:53 · 11060 阅读 · 0 评论