01hadoop简介

最新推荐文章于 2024-09-06 19:43:02 发布

sz2024

最新推荐文章于 2024-09-06 19:43:02 发布

阅读量196

点赞数 1

分类专栏： hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/qq_31053351/article/details/77845919

版权

hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

01Hadoop简介

什么是大数据

传统数据存储

1.关系型数据库
2.word、excel、ppt等文件存储方式

大数据的特点

1.数据量大；
2.数据种类多；
3.数据增长速度快；
4.价值密度低

大数据的本质

通过一系列的数据处理框架对大数据进行分析处理，得到有价值的数据；

数据分析的流程

1.数据源（rdbms，nginx等日志文件，历史数据文件）

1.格式化的数据
2.半格式化的数据，半格式化的数据需要转化为格式化的数据类型

2.数据采集

1.flume：实时的数据采集框架
    1.用来做数据采集；
    2.他们可以将数据采集到文件系统中（hdfs）；
2.sqoop：用于数据的导入导出
3.kafka：实时的消息中间件，相当于缓存

3.数据存储（分布式）

1.Hadoop：HDFS
2.Hbase：nosql
    1.是一个Hadoop的数据库
    2.和Mysql的区别：
        1.Mysql是关系型数据库，而Hbase是nosql，nosql是没有关系的（即没有外键的概念）

4.数据处理（分布式）

1.hadoop：mapreduce
2.spark
3.hive
    1.将数据文件映射成表；
    2.使用HQL语句操作数据；
4.impala

5.数据展示

1.echarts
2.highcharts

Hadoop的介绍

Hadoop官网

http://hadoop.apache.org/

Hadoop的功能

1.通过分布式存储解决大数据的存储问题；
2.通过分布式计算解决大数据的计算问题；

核心

1.HDFS(分布式的存储系统)
2.MapReduce(分布式的计算框架)

Hadoop的四大组件：

1.Hapoop Common：用于支持其他组件，hadoop会集成其他框架一起使用，common就会提供一些其他框架集成hadoop需要的接口；
2.Hadoop Distributed File System(HDFS)
    1.分块存储
    2.副本机制
3.Hadoop YARN：用于任务的调度和资源的管理（CPU、内存、磁盘、网络等资源）
4.Hadoop MapReduce：分布式计算模型
    1.map：将文件进行拆分，然后进行处理；
    2.reduce：将map阶段处理后的每个结果进行合并；