本案例涉及数据预处理、存储、查询和可视化分析、数据预处理全流程所涉及的各种典型操作,涵盖Linux、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用方法。
实验环境搭建
(1) 安装Linux系统:如果未安装,参照网页:http://dblab.xmu.edu.cn/blog/1589-2/
(2) 安装Hadoop:如果未安装,参照网页:http://dblab.xmu.edu.cn/blog/1591-2/
(3) 安装MySQL:如果未安装,参照网页:http://dblab.xmu.edu.cn/blog/1604-2
(4) 安装HBase:如果未安装,参照网页:http://dblab.xmu.edu.cn/blog/1593-2/
(5) 安装Hive:如果未安装,参照网页:http://dblab.xmu.edu.cn/blog/1600-2/
(6) 安装Sqoop:如果未安装,参照网页:http://dblab.xmu.edu.cn/blog/1596-2/
(7) 安装Eclipse:如果未安装,参照网页:http://dblab.xmu.edu.cn/blog/1589-2/
实验步骤概述
(1) 本地数据集上传到数据仓库Hive
(2) Hive数据分析