大数据和机器学习
CWeeYii
勤奋、天赋并重
展开
-
分布式Hive环境安装
1.HIVE安装hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。所有首先需要安装分布式环境的hadoop程序(参考:http://bl原创 2017-01-08 20:01:58 · 3386 阅读 · 0 评论 -
从零开始hadoop分布式环境搭建
1. Linux虚机换机环境安装1.1 linux环境安装1.建议选择虚拟机:VirtualBox 2.Linux版本:Ubuntu 3.安装时选择动态扩展磁盘,最大磁盘容量50G(最大磁盘容量太小,hadoop使用过程中容易出现意想不到的的问题) 4.网络选择桥接网卡(不要选择NAT,不然路由器不会为虚拟机分配独立的IP地址) 5.安装增强功能开启双向开启共享剪切板 6.安装用户使用同样原创 2017-01-07 12:51:18 · 3804 阅读 · 0 评论