大数据分析技术之MapReduce实践：词频统计（九）

最新推荐文章于 2024-05-11 19:27:04 发布

明曦君

最新推荐文章于 2024-05-11 19:27:04 发布

阅读量5.3k

点赞数 6

分类专栏：大数据分析文章标签： java hadoop

本文链接：https://blog.csdn.net/qq_35149632/article/details/106562710

版权

写在开头：目前已经陆陆续续搭建好了Linux、Hadoop相关的环境，可以开始一些简单的实例演示了。后面也会陆续更新这个系列了。

学习内容安排

本阶段学习内容的安排的话可能没有具体的内容规划，不会去涉及环境配置、软件安装的内容，主要是以介绍使用为主，以实例出发。大数据需要在Linux系统上进行，然后现在电脑使用的软件如下（部分软件由于学习原因选择的老版本），

软件名称	备注
NetBeans IDE 8.2	JAVA编译器
CentOS 6.6	Linux系统
VMware Workstation11	桌面版虚拟机
SecureCRT 7.0.0	终端仿真程序
Hadoop 2.6.5	分布式框架
Hive 1.2.2	数据仓库

电脑配置和虚拟机分配方面，因为资金有限，笔记本配置只有16个g，创建了4台虚拟机组建了伪分布式，配置这些已经调整好了，可能还没有安装的朋友在这个安装过程中可能需要费电功夫了，下面开始今天的Mapreduce实战讲解吧。

MapReduce之词频统计

MapReduce的介绍一时半会儿可能解释不清楚，这里大家可以参考学习一下这篇MapReduce过程总结，讲得还是比较清楚了，好了让我们正式开始吧。
今天要完成的目标是对一个本地txt文档利用MapReduce进行统计分析，所需的流程1.上传数据、2.编写MapReduce Java代码、3.输出结果。
1.上传数据
其实数据就是自己随意编写的一段话，首先需要从本地上传数据，假设我们本地数据放在c盘，然后需要知道自己的master主节点ip地址（可在linux中使用ifconfig进行查看）和上传的文件的目标文件夹，这里上传数据不是上传到linux里，而是直接上传到HDFS里，代码如下，

// 本地上传数据到HDFS
package com.mycompany.mavenproject1;

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class NewClass {
   
    public static void main(String[] args) throws IOException {
   
        Configuration conf = new Configuration(); //初始化配置
        conf.set("fs.defaultFS", "hdfs://192.168.0.23:9000"); //连接数据库fs.defaultFS为配置文件、9000为端口号
        FileSystem file = FileSystem.get(conf);// 设置文件配置
        file.copyFromLocalFile(new Path(

最低0.47元/天解锁文章

明曦君

关注

6
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
大数据分析技术之MapReduce实践：词频统计（九）

写在开头：目前已经陆陆续续搭建好了Linux、Hadoop相关的环境，可以开始一些简单的实例演示了。后面也会陆续更新这个系列了。学习内容安排本阶段学习内容的安排的话可能没有具体的内容规划，不会去涉及环境配置、软件安装的内容，主要是以介绍使用为主，以实例出发。大数据需要在Linux系统上进行，然后现在电脑使用的软件如下（部分软件由于学习原因选择的老版本），软件名称备注NetBeans IDE 8.2JAVA编译器CentOS 6.6Linux系统VMware Wo.
复制链接

扫一扫