前言
上一篇文章《从0开始学大数据(1):Parallels Desktop下CentOS系统的安装和静态IP地址配置》前面使用虚拟机安装了centos系统和配置虚拟机的IP静态地址。今天这章内容主要是对大数据的知识体系有个了解并且对Hadoop的运行环境的搭建。
- 大数据生态体系
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
- 推荐系统框架图
通过上面的两张PPT,我们应该能看懂大数据的作用就是讲用户的行为对某个特定商品的行为习惯变为数据参数整合后通过IT的技术手段在海量数据中找到有价值导向的数据结果推送给用户,我们的目的就是学习其中的IT技术工具,下面我们先从Hadoop来说起。
Hadoop
Hadoop的组成
通过上面的思维导图,我们可以清晰的看见Hadoop的组成。可能其中的技术细节现在还无法看懂,不过我们再心里面有一个框架,以便于我们后期的学习有一个方向。下面开始讲解我们今天的主要目的运行环境的搭建。
Hadoop的运行环境搭建
这节来说下Hadoop的运行环境的搭建,下面我列出一些官网地址信息,这篇文章主要来源于官网信息的教程。
- 官网网址: