大数据学习

谁说大象不能跳舞

Hadoop——轻松应对海量数据存储与分析

海量数据:

量,大,数据多,数据量到达PB,ZB级别,条目数达到上几十亿条百亿条

1KB (Kilobyte 千字节)=1024B

1MB (Megabyte 兆字节 简称”)=1024KB

1GB (Gigabyte 吉字节 又称千兆”)=1024MB

1TB (Terabyte 万亿字节 太字节)=1024GB,其中1024=2^10 ( 2 10次方)

1PBPetabyte 千万亿字节 拍字节)=1024TB

1EBExabyte 百亿亿字节 艾字节=1024PB

1ZB (Zettabyte 十万亿亿字节 泽字节)= 1024 EB,

1YB (Yottabyte 一亿亿亿字节 尧字节)= 1024 ZB,

1BB (Brontobyte 一千亿亿亿字节)= 1024 YB.

 

存储:

分布式,集群的概念,管理(主节点,从节点),HDFSHadoop Distributed FileSystem

分析:

分布式,并行,离线计算框架,管理(主节点,从节点),MapReduce

 

Apache Hadoop logo

 

 

起源

Apache lucene:开源的高性能性能全文检索工具包

Apache Nutch:开源的Web搜索引擎

Google三大论文:MapRedure/GFS/BigTable

Apache Hadoop:大规模数据处理

 

 

HDFS->GFS开源文件系统

Google MapReduce->Hadoop MapReduce开源的分布式并行结算框架

BigTable->HBase 开源的分布式数据库

 

大数据,云计算

大数据:

数据量大,数据有价格,分析挖掘

云计算:

云计算由三层构成:IAAS,PAAS,SAAS

IAAS:基础设施即服务,典型实现有Amazon EC2OpenStack,CloudStackRackspace

OpenStack可以构建公司的私有云平台

PAAS:平台即服务,典型实现有Google AppEngineApache Hadoop

SAAS:软件即服务,典型实现有:Google Apps

 

 

Hadoop——Big Data Platform

数据存储

HDFS

-Distributed across nodes” 分布式节点

-Natively redundant 本地化

Name node tracks location 名称节点跟踪位置

数据处理

Map Reduce

-Splits a task across processors”near” line data & assembles 任务分割机器处理

-self-Heading,High Brandwidth clustered Storage 自身的处理,高

 

 

Apache Hadoop特点

扩展性(Scalable

成本低

高效率(Flexible

可靠性

 

Apache Hadoop能解决哪些问题

诉求

速度,深度,固定资产

问题

磁盘IO成为一种瓶颈,而非CPU资源

网络带宽是一种稀缺资源

硬件故障成为影响稳定的一大因素

 

 

Hadoop发展历史

经典版本: 0.20.2 -> 1.0.0(第一个1.0.0正式版本)  ->1.0.3或者1.0.4非常好

 

2.x版本:

2,2,0,   2.3.0,   2.4.0正式版本,用于实际

 

 

ETL

提取  ->  转换  ->  加载

从数据库中获取数据,并进行一系列的数据清理和清洗筛选,将合格的数据进行转换成一定的格式数据进行存储,将格式化的数据存储到HDFS文件系统上,以供计算框架进行数据分析和挖掘。

格式化数据:

1-TSV格式 :每行数据的每列之间以【制表符\t】 进行分割

2-CVS格式:每行数据的每列之间以【逗号】进行分割

Sqoop

将关系型数据库中的数据与HDFS(HDFS文件,HBase中标,Hive)上的数据进行相互导入导出

Flume

收集各个应用系统和框架的日志,并将其放到HDFS分布式文件系统的相应制定的目录下。

 

 

 对于分布式系统和框架的架构来说,一般分为两部分,

第一部分:管理层,用于管理应用层的

第二部分:应用层(工作的)

 

HDFS,分布式文件系统

NameNode(元数据服务器):属于管理层,用于管理数据的存储

Secondary NameNode(辅助元数据服务器):也属于管理层,辅助NameNode进行管理

DataNodes(块存储)属于应用层,用于进行数据的存储,被NameNode进行管理,要定时的向NameNode进行工作汇报,执行NameNode分配分发的任务。

MapReduce分布式的并行计算机架

JobTracker(任务调度员) 属于管理层,管理集群资源和对任务进行资源调度,监控任务的执行。

TaskTracker(任务执行)属于应用层,执行JobTracker分配分发的任务,并向JobTracker汇报工作情况。

 

 

HDFS框架的讲解

 

NameNode. 存储文件的元数据

1) 文件名称

2) 文件的目录结构

3) 文件的属性(权限,副本数,生成的时间)

4) 文件 ——>(对应) Block块——>(存储在)DataNodes

 

 

MapReduce框架讲解和MapReduce思想原理讲解

 

 

Apache Hadoop 安装部署模式

单机(本地)模式(Standalone Mode

伪分布模式(Pseudo-Distributed Mode

全分布模式(Fully Distributed Mode

尚硅谷是一家知名的IT培训机构,提供了丰富的大数据学习资源和课程。以下是基于尚硅谷提供的大数据学习路线的建议: 1. 基础知识:开始学习前,建议先掌握Java编程语言和数据库基础知识,这些对于后续学习大数据技术非常有帮助。 2. 大数据基础:尚硅谷提供了《大数据基础入门》课程,该课程包含了大数据技术的概述、Hadoop生态系统、HDFS分布式文件系统等基础内容。 3. 分布式计算:学习《Hadoop生态系统》课程,深入了解Hadoop的核心组件,如MapReduce、HDFS、YARN等,并掌握基本的Hadoop集群搭建和调优技巧。 4. 数据仓库与数据湖:学习《数据仓库与数据湖》课程,了解数据仓库和数据湖的概念、架构和设计原则,以及常用的数据仓库工具和技术。 5. 大数据实时计算:学习大数据实时计算》课程,掌握Spark、Flink等实时计算框架的使用,了解流式计算和批处理计算的特点和应用场景。 6. 数据分析与挖掘:学习大数据分析与挖掘》课程,掌握常用的数据分析和挖掘工具和算法,如机器学习、数据挖掘、推荐系统等。 7. 数据可视化与报告:学习《数据可视化与报表工具》课程,了解Tableau、Power BI等可视化工具的使用,学会将数据分析结果以直观的方式呈现。 尚硅谷还提供了大量的实战项目和案例,可以帮助学员将所学知识应用于实际场景中。此外,他们还提供了一对一的辅导和讨论群,可以与老师和其他学员交流和分享经验。 以上是基于尚硅谷提供的资源和课程所建议的大数据学习路线,你可以根据自己的实际情况和兴趣进行选择和调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值