Hadoop&Spark
文章平均质量分 81
Hadoop&Spark
兮动人
世间味趣亦如此,万物且去轮浮生。
展开
-
Log4j 基本使用
文章目录1. 概述2. 三大组件3. 日志的级别4. 配置文件 log4j.properties5. 程序中使用Log4j1. 概述介绍Log4J 是 Apache 的一个开源项目。通过在项目中使用 Log4J,我们可以控制日志信息输出到控制台、文件、GUI 组件、甚至是数据库中。我们可以控制每一条日志的输出格式,通过定义日志的输出级别,可以更灵活的控制日志的输出过程。方便项目的调试。官网https://logging.apache.org/log4j/2.x/2. 三大组件Log4J原创 2021-04-10 16:49:01 · 428 阅读 · 0 评论 -
HDFS Java 客户端 API
1. 概述HDFS在生产应用中主要是Java客户端的开发,其核心步骤是从HDFS提供的API中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件。2. 客户端核心类Configuration 配置对象类,用于加载或设置参数属性FileSystem 文件系统对象基类。针对不同文件系统有不同具体实现。该类封装了文件系统的相关操作方法。3. IDEA创建工程项目...原创 2021-04-07 17:24:22 · 340 阅读 · 0 评论 -
HDFS Shell 命令实操
1. 微博案例–HDFS Shell实操1.1 案例:微博用户数据HDFS操作需求:微博作为社交平台,拥有大量的用户评论数据。为了更好的分析微博用户的行为和习惯,进行精准的营销和推荐。可以将微博的用户评论数据上传到HDFS,供后续其他大规模文本、情感分析程序来处理。因为HDFS作为分布式文件存储系统,是整个大数据平台的最底层的核心。目录规划1.2 创建目录命令:hadoop fs -mkdir [-p] <path> ...path 为待创建的目录-p选项的行为与Unix原创 2021-04-05 16:03:35 · 457 阅读 · 0 评论 -
HDFS Web 报错:Permission denied: user=dr.who, access=READ_EXECUTE, inode=“/tmp“:root:supergroup:drwx
这边我使用的Hadoop 2.7.4 版本在查看 HDFS Web 界面的时候,点击 /tmp 目录时进不去,报错:Permission denied: user=dr.who, access=READ_EXECUTE, inode="/tmp":root:supergroup:drwx------解决方法:这是因为没有权限导致的,修改权限就行了,进入到 hadoop 的 bin 目录下,执行./hdfs dfs -chmod -R 755 /tmp...原创 2021-04-04 16:46:22 · 705 阅读 · 0 评论 -
HDFS Shell 命令简介及查询
1. 微博HDFS案例1.1 HDFS Shell CLI客户端命令行界面(英语:command-line interface,缩写:CLI)是指用户通过键盘输入指令,计算机接收到指令后,予以执行一种人际交互方式。Hadoop提供了文件系统的shell命令行客户端,使用方法如下:跟文件系统读写使用相关的命令是 hdfs dfs [generic options]1.2 HDFS Shell CLI客户端–说明HDFS Shell CLI支持操作多种文件系统,包括本地文件系统(file:原创 2021-04-03 16:54:30 · 801 阅读 · 0 评论 -
分布式文件系统 HDFS 简介
文章目录1. HDFS 简介2. HDFS起源发展3. HDFS设计目标4. HDFS应用场景5. HDFS重要特性--主从架构6. HDFS重要特性--分块存储机制7. HDFS重要特性--副本机制8. HDFS重要特性--namespace9. HDFS重要特性--元数据管理10. HDFS重要特性--数据块存储1. HDFS 简介HDFS( Hadoop Distributed File System ),意为:Hadoop分布式文件系统。是Apache Hadoop核心组件之一,作为大数据生态原创 2021-04-02 15:12:30 · 1088 阅读 · 0 评论 -
Hadoop 集群安装
Step8:NameNode format(格式化操作)首次启动HDFS时,必须对其进行格式化操作。format本质上是初始化工作,进行HDFS清理和准备工作命令:hdfs namenode -formatHadoop集群启动关闭-手动逐个进程启停每台机器上每次手动启动关闭一个角色进程HDFS集群hdfs --daemon start namenode|datanode|secondarynamenodehdfs --daemon stop namenode|datano原创 2021-04-02 14:36:41 · 244 阅读 · 0 评论 -
Hadoop 集群搭建
文章目录1. Hadoop 集群简介2. Hadoop 部暑模式3. Hadoop 源码编译4. Hadoop 集群安装1. Hadoop 集群简介Hadoop集群包括两个集群:HDFS集群、YARN集群两个集群逻辑上分离、通常物理上在一起两个集群都是标准的主从架构集群逻辑上分离两个集群互相之间没有依赖、互不影响物理上在一起某些角色进程往往部署在同一台物理服务器上MapReduce集群呢?MapReduce是计算框架、代码层面的组件没有集群之说2. Hadoop 部暑模式原创 2021-04-01 21:28:02 · 325 阅读 · 6 评论 -
Hadoop 概述
1. Hadoop 介绍、发展简史文章目录1. Hadoop 介绍、发展简史1.1 狭义上Hadoop指的是Apache的一款开源软件。2.1 Hadoop核心组件3.1 官网:https://hadoop.apache.org/4.1 广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。5.1 Hadoop发展简史6.1 总结2. Hadoop 特性优点、国内外应用2.1 Hadoop 特性优点2.1 Hadoop 国外应用2.2 Hadoop 国内应用2.3 总结3. Hadoop 发行版本、原创 2021-03-30 21:19:29 · 327 阅读 · 0 评论 -
MapReduce 概述及核心思想
文章目录1. MapReduce 概述1.1 MapReduce 定义1.2 MapReduce 优缺点1.2.1 优点1.2.2 缺点1.3 MapReduce 核心思想1.4 MapReduce 进程1.5 官方 WordCount 源码1.6 常用数据序列化类型1. MapReduce 概述1.1 MapReduce 定义MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自原创 2021-03-24 22:00:11 · 1500 阅读 · 0 评论