hadoop学习笔记

最新推荐文章于 2024-08-07 22:15:50 发布

Maggieee1023

最新推荐文章于 2024-08-07 22:15:50 发布

阅读量253

点赞数 9

文章标签： hadoop 学习笔记

本文链接：https://blog.csdn.net/Maggie_JK/article/details/140355325

版权

1.基本概念

专为离线和大规模数据分析而设计的，可编写和运行分布式应用处理大规模数据

2.MapReduce

分而治之的思想

一件事情，分给多个机器，每个机器做一部分工作（map），将它们做的工作汇总起来（reduce）

3.数据仓库的构架

底层HDFS，上面跑MapReduce／Tez／Spark，在上面跑Hive，Pig

4.常用命令

1.-ls 查看指定目录下的内容

hadoop fs –ls [文件目录]

2.-cat 显示文件内容

hadoop dfs –cat [file_path]

3.-put 将本地文件/文件夹存储至hadoop

hadoop fs –put [本地地址] [hadoop目录]

hadoop fs –put [本地目录] [hadoop目录]

4.-get 将hadoop上某个文件down至本地已有目录下

hadoop fs -get [文件目录] [本地目录]

5.-rm 删除hadoop上指定文件或文件夹

hadoop fs –rm [文件地址]

hadoop fs –rm [目录地址]

6.-mkdir 在hadoop指定目录内创建新目录

hadoop fs –mkdir /user/t

7.-du：统计文件夹的大小信息

-h 它会以更易读的格式（如KB、MB、GB）显示大小。

-s 用于汇总目录大小

hadoop fs -du -s -h /user/itcast/test

2.7 K /user/itcast/test

hadoop fs -du  -h /user/itcast/test

1.3 K /user/itcast/test/README.txt

15 /user/itcast/test/jinlian.txt

1.4 K /user/itcast/test/nihao.txt

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Maggieee1023

关注关注

9
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
hadoop学习笔记

专为离线和大规模数据分析而设计的，可编写和运行分布式应用处理大规模数据。
复制链接

扫一扫

Hadoop学习笔记

NotLency的博客

08-22

1822

Hadoop学习简介前言：大数据的概念一、Hadoop入门1.概念1.1 Hadoop是什么？1.2 Hadoop发展历史1.3 Hadoop三大发行版本1.4Hadoop的优势1.5Hadoop的组成1.5.1 HDFS架构概述1.5.2 YARN架构概述1.5.3 MapReduce架构概述1.5.4 HDFS、YARN、MapRecduce三者间的关系1.6大数据技术生态体系1.7推荐系统案例2. 环境准备2.1模板虚拟机的准备2.2克隆2.3安装JDK以及Hadoop3.Hadoop生产集群搭建3.

Hadoop学习笔记---hadoop入门

weixin_42488772的博客

02-15

301

大数据概述

参与评论您还未登录，请先登录后发表或查看评论

HADOOP学习笔记——HDFS

csncd的博客

03-18

1878

HADOOP学习笔记——HDFS什么是hdfshdfs的优点hdfs的缺点hdfs的组成框架hdfs的特性hdfs的读流程hdfs的写流程网络拓扑-节点距离机架感知（副本节点的选择）什么是hdfs 首先我们要知道hdfs是分布式文件系统，它是分布式的由多个服务器共同联合起来实现的，适合存储海量数据，适合一次写入、多次读取的场景。 hdfs的优点高容错性：副本机制使它可以提高容错率，多个副本的存在可以避免数据的丢失。处理大数据：多个服务器组成使它可以存储大量的数据，处理大量文件。对于搭建的集群的服

Hadoop学习笔记（持续更新中）

蛙爸爸的博客

04-09

500

Hadoop1.x 时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大。在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce 只负责运算。Hadoop3.x在组成上没有变化。

Hadoop学习笔记之HDFS

最新发布

qq_42568323的博客

08-07

735

通过以上步骤，我们成功地使用 Python 实现了一个简单的 Hadoop Word Count 程序。Hadoop Streaming 提供了极大的灵活性，可以使用任意支持标准输入输出的编程语言来实现 MapReduce 作业。这使得开发者能够利用熟悉的编程语言进行大规模数据处理。如果在开发过程中遇到任何问题，请确保查看 Hadoop 和 Python 的错误日志，以便更快地定位问题并进行调试。SSH 问题：确保所有节点之间的 SSH 无密码访问正常。Java 环境问题。

【九】Hadoop3.3.4HA高可用配置

qq_31412425的博客

08-04

769

在 Hadoop 生态系统中，NameNode 是文件系统的中心管理器，负责管理 HDFS 的元数据。与此同时，它还会创建新的检查点（checkpoint），以减少系统重启时的恢复时间。QJM 是管理 JournalNode 的组件，确保在集群中至少一半以上的 JournalNode 写入成功后，操作才被认为是持久化成功的。当前高可用在以下三台节点组成的hadoop3.3.4集群中进行配置，当前已经完成了集群安装，hdfs的验证，并且。基于高可用的配置，主要用于配置 Hadoop 的核心设置，这里重点是。

日常学习--20240806

xxm13679073037的博客

08-07

567

调优

Zero123++ 论文学习

calvinpaean的博客

08-07

785

随着新视图生成模型的涌现，3D 内容生成领域取得了显著进展，这些模型利用了强大的 2D 扩散生成先验知识，这些 2D 扩散模型是在互联网上的大规模数据集训练得到的。如果没有全局条件，针对可见区域生成的内容还是不错的，但是对于不可见区域，则生成质量就急剧下降了，因为模型缺乏推理物体的全局语义的能力。Reference Attention 指的就是，在对模型的输入去噪时，对一个额外的参考图像使用去噪 UNet 模型，并将参考图像中得到的自注意力 key 矩阵和 value 矩阵附加到去噪模型的相应的注意力层。

【GCC】结合GPT4 延迟梯度学习2：延迟梯度的计算及阈值更新

突围

08-06

拥塞控制

HTML5新增元素属性学习

weixin_68441705的博客

08-06

213

placeholder：提示性语句，在文本输入框上提示用户输入内容，当用户填充内容消失，删除内容又出现（用于提示用户输入用户名，密码，适合短的提示语句）2.datalist 表单新元素配合input使用，有下拉菜单也可以输入内容（通常用于搜素引擎）autofocus：自动聚焦，进入注册界面，光标自动聚焦在输入框上，用于提升用户体验。min和max ：最大值最小值可以配合其他属性使用，用于数值型。required：必填项，用户如果不填，表单无法提交。autocomplete：自动填充，通常用于登录。

Linux shell编程学习笔记68： curl 命令行网络数据传输工具选项数量雷人（上）

Purpleendurer@CSDN

08-04

1033

在网络时代，有经常需要在网络上传输数据，时我们需要通过网络下载文件，为了满足这种时代需要，Linux提供了众多网络命令，我们今天先研究curl命令。例如，我们可以使用curl从 URL 下载文件，或将文件上传到服务器。

嵌入式学习之路 12 （C语言基础学习 —— 一维、二维数组做函数参数）

weixin_63556308的博客

08-03

748

二维字符型数组用来存储多个字符串，操作时往往都是要操作多个字符串，而多个字符串没有所谓的结束标志，看的是数组行数。一位字符串数组主要用来存放字符串数据，而字符串数据有结束标志，所以传参时不需要传长度。因为处理的是字符串数据，字符串操作的依据是看结束标志'\0'，所以不需要传数组长度。练习：对一维字符型数组做函数参数的操作。练习：对一维整型数组做函数参数的操作。练习：对二维整型数组做函数参数的操作。练习：对二维字符型数组做函数参数的操作。做形参要写数组形式+行数；做实参要写数组名+行数；

接口测试学习笔记1

weixin_53666393的博客

08-03

934

同时也像白盒测试那样，检查程序的代码，但这种检查不像白盒测试那样详细、完整，一般只对程序模块之间的调用、核心代码进行检查，在集成测试时经常采用，一般也是程序员大量采用。现在企业说的接口测试，一般指的是Web接口测试或Http接口测试，主要指的是基于B/S架构的接口测试（B/S架构主要基于HTTP 超文本传输协议，所以也叫HTTP接口测试）对请求对象（网页、文件、图片...）进行的操作，就是一些命令，程序员在编程的时候使用，在接口文档中会指明，测试人员测试接口的时候，按照说明选择正确的方法。

sheng的学习笔记-AI-k近邻学习（kNN)

coldstarry的专栏

08-07

256

k近邻（k-Nearest Neighbor，简称kNN）学习是一种常用的监督学习方法，是一种基本的分类与回归方法。分类问题：对新的样本，根据其 k 个最近邻的训练样本的类别，通过多数表决等方式进行预测。回归问题：对新的样本，根据其 k 个最近邻的训练样本标签值的均值作为预测值。

简单的docker学习第8章 docker常用服务安装

qq_19342829的博客

08-05

1316

b站docker学习笔记

SpringBoot快速学习

qq_46091002的博客

08-06

297

目录SpringBoot配置文件多环境配置SpringBoot整合junitSpringBoot整合mybatis1.在创建时勾选需要的模块2.定义实体类3.定义dao接口4.编写数据库配置5.使用Druid数据源是对开发进行简化的。那我们先来看看SpringMVC开发中的一些必须流程。从上面的程序开发可以看到，前三步都是在搭建环境，而且这三步基本都是固定的。就是对这三步进行简化了。对比一下程序和程序。使用SpringBoot后我们只需要定义Controller和Application

大数据Hadoop学习笔记深度解析与就业指南

本资源是一份全面的大数据学习笔记汇总，主要关注于Hadoop技术的学习和发展。笔记内容分为六个部分： 1. **HADOOP入门** 部分首先介绍了大数据课程的基本内容，包括课程概述、学习建议、就业前景和Hadoop的发展规划...