大数据入门之Hadoop基础学习

最新推荐文章于 2024-08-11 19:59:57 发布

煊琰

最新推荐文章于 2024-08-11 19:59:57 发布

阅读量170

点赞数

前言

目前人工智能和大数据火热，使用的场景也越来越广，日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解

基础概念

大数据的本质

一、数据的存储：分布式文件系统（分布式存储）
二、数据的计算：分部署计算

基础知识

学习大数据需要具备Java知识基础及Linux知识基础

学习路线

（1）Java基础和Linux基础
（2）Hadoop的学习：体系结构、原理、编程
第一阶段：HDFS、MapReduce、HBase（NoSQL数据库）
第二阶段：数据分析引擎 -> Hive、Pig

              数据采集引擎 -> Sqoop、Flume

第三阶段：HUE：Web管理工具

                    ZooKeeper：实现Hadoop的HA
                    Oozie：工作流引擎

（3）Spark的学习

    第一阶段：Scala编程语言
    第二阶段：Spark Core -> 基于内存、数据的计算
    第三阶段：Spark SQL -> 类似于mysql 的sql语句
    第四阶段：Spark Streaming ->进行流式计算：比如：自来水厂

（4）Apache Storm 类似：Spark Streaming ->进行流式计算

NoSQL：Redis基于内存的数据库

HDFS

分布式文件系统解决以下问题：

1、硬盘不够大：多几块硬盘，理论上可以无限大
2、数据不够安全：冗余度，hdfs默认冗余为3 ，用水平复制提高效率，传输按照数据库为单位：Hadoop1.x 64M，Hadoop2.x 128M

管理员：NameNode 硬盘：DataNode

![image.png](http://ata2-img.cn-hangzhou.img-pub.aliyun-inc.com/8ca9f78b244c7f991e73f71fd1e56421.png)

MapReduce

原文链接

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

煊琰

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

大数据之Hadoop入门

二锅头的博客

09-04

2803

1、大数据概论我接触大数据准确来说是在我上大二的时候，我在跟我的系主任一起做项目的时候，那个时候处理的国外的数据，大约是由500W的数据，当时我用的舍友的笔记本，直接卡到打不开，也就是在那个时候，才有了大数据的概念。好了，进入正题！ 1.大数据概念 大数据：指无法在一定时间范围内用日常的软件工具进行分析、处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长和多样化的信息资产。所以学习大数据就是主要解决海量数据的存储和海量数据的分析计算问题。 2.大数据特

大数据技术之Hadoop入门（第二篇）

AdamAaron的博客

06-11

5329

大数据技术之Hadoop入门（第二篇）继续上篇文章Hadoop入门今天来简单的说一下HDFS中的SecondaryNameNode 副节点和持久化在上篇文章中说过了Secondary NameNode(Snn 后面都写作SNN)：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照一、SNN SNN的主要工作（1）Secondary NameNode询问NameN...

参与评论您还未登录，请先登录后发表或查看评论

大数据技术之 Hadoop（入门）

HelloWowofei的博客

07-22

1202

注意：在企业开发时，通常单个服务器的防火墙时关闭的。如果服务器在内网环境，必须要配置集群时间同步，否则时间久了，会产生时间偏差，找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，生产环境。：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、根据任务对时间的准确程度要求周期同步。是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

大数据技术之Hadoop（入门）

qq_33239198的博客

05-08

304

大数据技术之Hadoop（入门）从Hadoop框架讨论大数据生态 Google是Hadoop的思想之源（Google在大数据方面的三篇论文） GFS ====> HDFS Map-Reduce ====> MR BigTable ====> HBase Hadoop的优势 高可靠性：因为Hadoop假设计算元素和存储会出现故障，它维护多个工作...

大数据技术之Hadoop--入门

m0_47707460的博客

05-11

524

第1章 大数据概论 1.1 大数据概念 大数据概念如图所示。 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DzXO0n41-1589145890472)(大数据技术之Hadoop–入门.assets/image-20191227150034169.png)] [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zrDZL7ue-1589145890474)(大数据技术之Hadoop–入门.assets/image-20191227150124050

尚硅谷大数据技术之Hadoop（入门）1

08-04

- **多样**：图2-4展示了数据类型的多样性，处理多种类型数据的能力是大数据技术的关键挑战之一。 - **低价值密度**：图2-5表示大数据中的大部分数据可能没有立即的价值，需要通过深度分析才能揭示隐藏的洞察。 ...

大数据技术之 Hadoop（入门详解）

最新发布

qq_45115959的博客

08-11

1346

各个模块分开启动/停止（配置 ssh 是前提）常用整体启动/停止 HDFS整体启动/停止 YARN各个服务组件逐一启动/停止分别启动/停止 HDFS 组件启动/停止 YARN。

大数据技术之Hadoop(入门).docx

03-02

### 大数据技术之Hadoop（入门）知识点详解 #### 第1章 大数据概论 ##### 1.1 大数据概念 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。这些数据具有体量巨大、来源多样化、格式...

大数据Hadoop快速入门教程

大数据Hadoop学习

12-12

622

1、Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构，用户可以在不了解分布式底层细节情况下，开发分布式程序，充分利用集群的威力来进行高速运算与存储，具有可靠、高效、可伸缩的特点 Hadoop的核心是YARN,HDFS,Mapreduce,常用模块架构如下 2、HDFS 源自谷歌的GFS论文，发表于2013年10月，HDFS是GFS的克隆版，HDFS...

大数据学习笔记之Hadoop（一）：Hadoop入门

as403045314的博客

04-16

861

文章目录大数据概论一、大数据概念二、大数据的特点三、大数据能干啥？四、大数据发展前景五、企业数据部的业务流程分析六、企业数据部的一般组织结构Hadoop（入门）一从Hadoop框架讨论大数据生态1.1 Hadoop是什么1.2 Hadoop发展历史1.3 Hadoop三大发行版本1.4 Hadoop的优势1.5 Hadoop组成1.5.1...

Hadoop——大数据入门必学

weixin_43934104的博客

09-16

448

开头整点闲话小二在工作之余突发奇想，整篇关于Hadoop的基础原理的知识，希望能帮助大家更容易去学习更多技术知识。我了解到大学现在很多大数据和数据分析的专业，涉及到大数据必须得把这个Hadoop搞定啊，Hadoop在数据提取，变形和加载的自身优势使其在超大数据集的应用程序上不仅提供海量数据的存储，同时也提供了高速计算的手段。 Hadoop介绍针对分布式系统架构，Apache开发出Hadoop，让我们可以开发分布式的程序。重要的两点就是其分布式存储文件系统（HDFS）和高速运算（MapReduce）。这两

大数据的入门之路——Hadoop基础学习

程序之道的博客

12-27

439

前言目前人工智能和大数据火热，使用的场景也越来越广，日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。基础概念 大数据的本质一、数据的存储：分布式文件系统(分布式存储) 二、数据的计算：分部署计算基础知识学习大数据需要具备Java知识基础及Linux知识基础学习路线 (1)Java基础和Linux基础 (2)Hadoop的学习：体系结构...

10分钟大数据Hadoop基础入门

大数据基础入门教程

03-02

699

前言目前人工智能和大数据火热，使用的场景也越来越广，日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。基础概念 大数据的本质一、数据的存储：分布式文件系统（分布式存储）二、数据的计算：分部署计算基础知识学习大数据需要具备Java知识基础及Linux知识基础学习路线（1）Java基础和Linux基础（2）Hadoop...

大数据hadoop入门总结图

weixin_40592935的博客

02-13

840

一, 大数据技术生态体系二, Hadoop MapReduce框架三, hadoop HDFS 副本存放策略四, 安装实例

大数据入门-基础篇01-hadoop框架简介

BigBang的博客

12-15

2533

声明：本文主要根据八斗学院孙国宇老师的Hadoop大数据实战手册进行的整理，仅限入门学习！第一章 hadoop简介 Hadoop 是一个由 Apache 基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非

大数据入门：Hadoop生态及发展历程

Hadoop生态系统随着时间的推移不断演进，从最初的Hadoop 1.x版本发展到现在的Hadoop 2.x和更高版本，提供了更多的工具和服务，帮助企业更好地挖掘和利用大数据，驱动业务创新。大数据技术的发展既源于业务需求，也...