01Hadoop简介
什么是大数据
传统数据存储
1.关系型数据库
2.word、excel、ppt等文件存储方式
大数据的特点
1.数据量大;
2.数据种类多;
3.数据增长速度快;
4.价值密度低
大数据的本质
通过一系列的数据处理框架对大数据进行分析处理,得到有价值的数据;
数据分析的流程
1.数据源(rdbms,nginx等日志文件,历史数据文件)
1.格式化的数据
2.半格式化的数据,半格式化的数据需要转化为格式化的数据类型
2.数据采集
1.flume:实时的数据采集框架
1.用来做数据采集;
2.他们可以将数据采集到文件系统中(hdfs);
2.sqoop:用于数据的导入导出
3.kafka:实时的消息中间件,相当于缓存
3.数据存储(分布式)
1.Hadoop:HDFS
2.Hbase:nosql
1.是一个Hadoop的数据库
2.和Mysql的区别:
1.Mysql是关系型数据库,而Hbase是nosql,nosql是没有关系的(即没有外键的概念)
4.数据处理(分布式)
1.hadoop:mapreduce
2.spark
3.hive
1.将数据文件映射成表;
2.使用HQL语句操作数据;
4.impala
5.数据展示
1.echarts
2.highcharts
Hadoop的介绍
Hadoop官网
http://hadoop.apache.org/
Hadoop的功能
1.通过分布式存储解决大数据的存储问题;
2.通过分布式计算解决大数据的计算问题;
核心
1.HDFS(分布式的存储系统)
2.MapReduce(分布式的计算框架)
Hadoop的四大组件:
1.Hapoop Common:用于支持其他组件,hadoop会集成其他框架一起使用,common就会提供一些其他框架集成hadoop需要的接口;
2.Hadoop Distributed File System(HDFS)
1.分块存储
2.副本机制
3.Hadoop YARN:用于任务的调度和资源的管理(CPU、内存、磁盘、网络等资源)
4.Hadoop MapReduce:分布式计算模型
1.map:将文件进行拆分,然后进行处理;
2.reduce:将map阶段处理后的每个结果进行合并;