Hadoop的起源与背景知识(非常重要:原理的部分)
================================================
一、什么是大数据?
举例:
1、电商的推荐系统:(问题1)大量的订单如何存储?
(问题2)大量的订单如何计算?:注意:可能运用推荐算法(协同过滤、ALS、逻辑回归)
2、天气的预报:(问题1)大量的天气的数据如何存储?
(问题2)大量的天气的数据如何计算?
3、核心的问题:(1)数据的存储------------------:分布式的文件系统:HDFS(Hadoop Distributed File System)
(2)数据的计算(不是算法)------:分布式的计算:MapReduce、Spark(RDD:弹性分布式数据集)
二、数据仓库和大数据
1、