![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop+Spark+Python
广埠屯小拉登
一个在做极地研究的小学生
展开
-
VM虚拟机环境下Hadoop的部署与设置(单一节点)
Hadoop Single Node Cluster是只以一台机器,建立hadoop环境,您仍然可以使用hadoop命令,只是无法发挥使用多台机器的威力。 因为只有一台服务器,所以所有功能都在一台服务器中,安装步骤如下: 安装JDK 设定 SSH 无密码登入 下载安装Hadoop 设定Hadoop环境变数 Hadoop组态档设定 建立与格式化HDFS目录 启动Hadoo...原创 2019-01-21 17:52:37 · 460 阅读 · 0 评论 -
VM虚拟机环境下Hadoop的部署与设置(多台机器)
Hadoop Multi Node Cluster Hadoop Multi Node Cluster规划如下图,由多台电脑組成: 有一台主要的电脑master,在HDFS擔任NameNode角色,在MapReduce2(YARN)擔任ResourceManager角色 有多台辅助的电脑data1、data2、data3,在HDFS擔任DataNode角色,在MapReduce2(YARN...原创 2019-01-21 22:13:43 · 1013 阅读 · 0 评论 -
WordCount.java的简单介绍
以WordCount为例,计算文件中每一个英文单词出现的次数,主要是这样的思路: Map: 将原本文字转换为(key,value)的形式,其中key是word,value是单词出现的次数 Shuffle: 将相同的key排列在一起 Reduce: 将相同的key 的value相加 主要操作步骤分为这样几步: 编辑WordCount.java 编译WordCount.java 创建测试文本文...原创 2019-01-23 14:29:00 · 1203 阅读 · 0 评论