最近两个月一直在做基础平台搭建方面的工作,总体分为基于hive的离线分析、基于storm的流式分析、基于hbase+solrcloud的大数据搜索三个子平台,下面简单介绍三个子平台的设计及搭建过程及简单的测试,涉及Linux系统方面的配置、Java环境的配置\MySQL\ganglia\NTP的安装、HDFS、YARN、Zookeeper、Hbase、Kafka、sqoop、Hive、Flume、Solrcloud等大数据组件的安装配置,由于配置参数及相关测试代码比较多,因此不在本文中一一列出,整个集群的配置、优化文档及相关的整理代码已经放到qq群中,有兴趣的用户可以一起相互交流,qq群号:301968783301
1、基于hive的离线分析平台