基于map-reduce代码实现以下应用,完成数据分析报告,并提交相关代码
1.查询频度前30的搜索词
2.被访问次数前10的网址及其次数占比
任务一:查询频度前30的搜索词
我把我的mapreduce java代码放在/home/hadoop/
目录下了,起名为WordCount30.java
,没有用IDE,是用vim写的。。。(卑微)
代码参考了下面博客并进行部分修改:
1.【CSDN】Hadoop MapReduce实现对搜狗五百万数据(sogou.500w.utf8) 频度排名
将 Hadoop 的 classhpath 信息添加到 CLASSPATH 变量中,在 ~/.bashrc 中增加如下几行:
export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
执行 source ~/.bashrc
使变量生效
[hadoop@localhost ~]$ source ~/.bashrc
通过 javac 命令编译 WordCount30.java
[hadoop@localhost ~]$ javac WordCount30.java
接着把 .class 文件打包成 jar,才能在 Hadoop 中运行:
[hadoo