大数据简介
什么是大数据:
- 举例:
①商品推荐:
<1>问题:1、大量的订单如何存储 2、大量的订单如何计算
②天气预报:
<1>问题:1、大量的天气数据如何存储 2、大量的天气数据如何计算 - 本质:
①数据的存储:分布式文件系统
(分布式存储)
②数据的计算:分布式计算
大数据与Java的关系:
Hadoop框架:基于Java语言开发
Spark框架:基于Scala语言开发,Scala基于Java语言
学大数据需要的基础:
- java基础(javase)—> 类,继承,I/O,反射,泛型****
- linux基础(linux操作)-----> 创造文件,目录,vi编辑器****
大数据学习路线:
java基础和linux基础
Hadoop的学习
:体系结构,原理,编程
①第一阶段:
<1>HDFS
(数据存储),
<2>MapRedue
(数据计算),
<3>HBase
(NoSql数据库)
②第二阶段:
<1>数据分析引擎:Hive,Pig
<2>:数据采集引擎:Sqoop,Flume
③第三阶段:
<1>HUE:Web管理工具(基于网页方式)
<2>ZooKeeper:实现Hadoop的HA(双机集群(HA)系统简称)
<3> Oozie:工作流引擎Spark的学习
:
①第一阶段:
<1>Scala编程语言 (注意:spark也支持java,python语言开发
)
②第二阶段:
<1>Spark Core---->基于内存,数据的计算
③第三阶段:
<