立即学习:https://edu.csdn.net/course/play/24838/284267?utm_source=blogtoedu
1、商品推荐
问题:
(1)大量的订单如何存储(2)大量的订单如何计算
2、天气预报
(1)过去10年-20年的天气数据如何存储
(2)如何计算这么庞大的数据来做天气预报?
什么是大数据?
本质:(1)数据的存储:采用分布式文件系统(分布式存储机制)
(2)数据的计算:分布式计算
第三节、java和大数据是什么关系
框架:1、hadoop 基于java语音
2 、spark :基于scala 语音,基于java;
第四节、学习大数据需要的基础和路线
1、学习大数据需要的基础:java 基础(javaSE)
--->类、继承、多态、I/O、反射、泛型;
linux基础 (linux的基础操作)
--》创建文件、目录、vi编辑器;
2、学习路线:
(1)java基础和linux基础
(2)hadoop的学习:体系结构、原理、编程;
*第一阶段: hdfs 、 mapreduce、 hbase(nosql数据库)
*第二阶段:数据分析引擎--》hive 、pig、
数据采集引擎--》sqoop 、flume
*第三阶段:hue :管理工具,web管理工具
zooKeeper :实现hadoop的ha;
oozie:工作流引擎
(3)spark的学习
*scala编程语言
spark core:基于内存, 解决数据的计算问题
spark sql :类似于oracle的sql 语句;
spark streaming 进行实时计算 流式计算;
(4)apache storm :类似于spark streaming
*nosql :redis基于内存的数据库