搜狗搜索日志分析系统500w数据(mapreduce+java 命令执行流程)

本文介绍了如何使用MapReduce和Java处理500万条搜狗搜索日志,实现查询频度前30的搜索词和访问次数前10的网址及其占比。详细阐述了代码编写、Hadoop环境配置、命令行编译打包及运行过程,包括添加Hadoop classpath、编译Java代码、打包成jar以及运行和检查结果的步骤。
摘要由CSDN通过智能技术生成

基于map-reduce代码实现以下应用,完成数据分析报告,并提交相关代码
1.查询频度前30的搜索词
2.被访问次数前10的网址及其次数占比

任务一:查询频度前30的搜索词
我把我的mapreduce java代码放在/home/hadoop/ 目录下了,起名为WordCount30.java,没有用IDE,是用vim写的。。。(卑微)

代码参考了下面博客并进行部分修改:
1.【CSDN】Hadoop MapReduce实现对搜狗五百万数据(sogou.500w.utf8) 频度排名

将 Hadoop 的 classhpath 信息添加到 CLASSPATH 变量中,在 ~/.bashrc 中增加如下几行:

export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH

执行 source ~/.bashrc 使变量生效

[hadoop@localhost ~]$ source ~/.bashrc

通过 javac 命令编译 WordCount30.java

[hadoop@localhost ~]$ javac WordCount30.java

接着把 .class 文件打包成 jar,才能在 Hadoop 中运行:

[hadoo
  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值