大数据常用软件
电脑最好16G内存,8G也可以用。5台虚拟机消耗较大,一般不用同时启动5台,但是毕竟消耗较大。一般同时启动3台。
- 操作系统
RedHat 7.4 64位
- VMware Workstatio:14(12)
- 5台虚拟机
| IP | 主机名(hostname) | 安装组件(角色) |
|---|---|---|
| 10.1.255.121 | bigdata121 | 如:nameNode |
| 10.1.255.122 | bigdata122 |
分布式是一种理念,集群是指通过集群的具体方式实现分布式的方式。实现分布式不一定通过集群,也可以通过docker实现
- 离线计算
- a)hadoop-- 2.x Yarn–资源管理
数据存储:HDFS (Hadoop Distributed File System)分布式存储文件系统 – IO File file = ne想吃w File(“a.txt”);
数据计算:MapReduce(Map集合) – java程序直接写MR程序
分布式是通过集群的方式具体实现- b)Hive:基于HDFS实现的数据仓库,SQL语句–增删改查
- c

最低0.47元/天 解锁文章
633

被折叠的 条评论
为什么被折叠?



