相信大家在复习英语相关考试时,都会很关注也很想知道试题中出现频率较高的单词是哪些从而提高复习的命中率对吧?今天我就告诉大家一个方法,使用MapReduce对指定文本进行单词的词频统计。那接下来我就带领大家从零开始一步步搭建环境,到最后的结果呈现,Let's go!
前置环境:
虚拟机Ubuntu系统
首先第一步要做的是Hadoop的生态安装:
1.在Oracle VM VirtualBox安转Ubuntu linux系统
2. 安装SSH、配置SSH无密码登陆
2.1因为ubuntu默认已经安装SSH client,所以只需安装SSH server: 命令:Sudo apt-get install openssh-server
2.2安装SSH服务后使用ssh localhost命令登陆本机
2.3 为了方便不用每次登陆SSH都需要密码,所以就将其配置成无密登陆。首先退出刚才的 ssh,就回到了我们原先的终端窗口,然后利用 ssh-keygen 生成密钥,并将密钥加入到授权中
之后再次使用localhost命令登陆则无需输入密码
3. 安装Java环境
首先在ubuntu的hadoop用户下创建一个Downloads的文件夹用于存放JDK的压缩包
JDK文件使用FileZilla传输到虚拟机Ubuntu里刚创建的Downloads文件夹下
然后接着创建在/usr/lib目录下创建一个jvm的文件夹,将刚才Downloads目录里的JDK压缩包解压到jvm目录下
JDK文件解压后使用cd /usr/lib/jvm进入jvm的目录,再ls命令查看一下解压后的情况
接着使用vim编辑器将以下内容添加到hadoop用户的环境变量配置文件中
保存.bashrc文件并退出vim编辑器。然后,继续执行source ~/.bashrc命令让配置生效,之后使用java -version命令查看是否成功安装
4. 安装Hadoop 2
首先通过FileZilla把Hadoop文件传输到Ubuntu里hadoop用户下的“Downloads”文件夹目录下
接着将Hadoop解压到/usr/local/里,并查看确认是否解压成功
解压后将文件夹名改为 hadoop 并修改文件权限
最后输入以下命令检查Hadoop是否可用,可用则会显示hadoop的版本信息