MapReduce
一曲无痕奈何
执笔书写人生路,背包踏尽世俗事。
展开
-
MapReduce从零基础到实战
离线批处理,时间延迟。上传文件到hdfs上:hdfs dfs -cat /后接想要查看的目录文件路径hadoop jar WC.jar WC.MapreduceWC /hdfstest1/WCdemo.txt /指定为创建的文件夹/想要查看我结果执行mapReduce的程序出现一个问题:Exception in thread “main” java.io...原创 2019-08-31 14:26:25 · 1628 阅读 · 1 评论 -
MapReduce实现数据集的城市id的关联(安徽省大数据网络赛数据预处理第三题)
处理好的数据:安徽省大数据网络赛第二题2 该题为数据处理常用处理方式,进行两个数据集的关联,原始数据集依然使用上述题1的log.log数据,另一数据集为cityid.txt。请完成数据关联。(10分)数据格式:1701|桐城市|桐城市|安徽|中国|安庆市|华东地区|四线城市|31.05228|116.938611702|宿松县|宿松县|安徽|中国|安庆市|华东地区|四线城市|30.1...原创 2019-10-03 14:01:15 · 643 阅读 · 0 评论 -
2018年安徽省大数据比赛MapReduce题目解答第三题
3、求每年最高气温(10分)根据/opt/ahdsjjs/Temperature.txt编写MapperReduce脚本 获得每年的最高气温,并输出数据格式如下:2014010114201401021620140103172014010410201401050620120106092012010732201201081220120109192012011023...原创 2019-10-02 16:19:24 · 704 阅读 · 0 评论 -
2018年安徽省大数据比赛MapReduce题目解答第二题
num.txt在此博客中:https://blog.csdn.net/qq_41479464/article/details/101922339使用MR的处理方式,去除num.txt中以2开头的数字,并且统计每个数字出现的次数将结果保存为num2.txt(10分)主函数:import java.io.IOException;import org.apache.hadoop.co...原创 2019-10-02 16:14:09 · 510 阅读 · 0 评论 -
2018年安徽省大数据比赛MapReduce题目解答第一题
1、编写自动脚本,在0-100的范围内生成随机整数,共生成5万个数字,以英文逗号进行分隔(5分):看了参考答案我发现参考答案写的很麻烦,但是也比较中规中矩,考虑了一些可能是工作上面的问题,而我能想的就是简单快速,拿分。自己代码:import java.io.FileNotFoundException;import java.io.FileOutputStream;import ...原创 2019-10-02 16:11:09 · 854 阅读 · 0 评论 -
安徽省大数据网络赛大数据分析第二小题
具体数据和字段介绍在此篇博客中:安徽省大数据分析第一小题请你将原始数据中用户的"uid","platform","app_version","pid","cityid" 五个字段和期对应的值提取出来。(编写相关代码及部分结果截图7分)解题思路:首先我们观察数据的格式,按照什么切分,最终确定按照逗号切分效果最好。第一步:map阶段进行过滤,只要包含这五个字段就进行写进reduce...原创 2019-10-02 16:05:38 · 708 阅读 · 0 评论 -
安徽省大数据网络赛大数据分析第一小题
该数据集log.log是某APP用户日志,请你使用MapReduce程序对数据进行预处理清洗提取。(15分)1.1 原始数据预处理(编写相关代码及部分结果截图8分)规则一:如果没有数据中没有uid、platform、app_version、pid四个字段同时出现的数据,请过滤掉规则二:将数据中字段locationcity的值为0的全部替换为1数据类型:{"common"...原创 2019-10-02 16:00:53 · 621 阅读 · 0 评论 -
利用MapReduce实现好友推荐
MapReduce的好友推荐案列:推荐好友的好友是简单的好友列表的差集吗?最应该推荐的好友TopN,如何排名?简单数据集:tom hello hadoop catworld hadoop hello hivecat tom hivemr hive hellohive cat hadoop world hello mrhadoop tom hive ...原创 2019-08-09 18:03:33 · 693 阅读 · 0 评论 -
使用MapReduce统计一篇微博数据的点赞次数,并且输出前五个最高的点赞数量。
一个MapReduce写了一个下午,调试运行了不下20次了,我靠,真是闹心,差点整崩溃,在最绝望的时候给出了最好的答案。需求:使用MapReduce统计一篇微博数据的点赞次数,并且输出前五个最高的点赞数量,输出id和对应的博客内容。数据介绍:随着移动互联网、物联网等新技术的迅速发展,人类进入数据时代。大数据带来的信息风暴正深刻改变我们的生活、工作和思维方式,对网络舆情管理也带来深刻...原创 2019-10-01 18:00:55 · 2854 阅读 · 0 评论 -
MapReduce的实战演练,以value利用treeMap进行排序
需求:统计网站的点击次数,并且输出前五名的网站以及对应的次数:数据格式:36.63.116.201|sdk.conf.igexin.com|20170207161935|61.147.218.24;222.186.20.109;222.186.20.123|0数据介绍:示例数据集dns_log.txt是某公司网站访问的日志,其中第1个字段为访问的源ip地址,第2个字段为访问的网站...原创 2019-10-01 16:36:57 · 2033 阅读 · 0 评论 -
用MapReduce统计微博的粉丝数,加上博主的昵称
需求:*统计粉丝数,对应的作者昵称,进行排名//*字段含义:id,发布时间,点赞数,评论数,转发数,作者昵称,关注,粉丝数,性别,博客内容 //数据格式:4404122063266890,2019-08-11,8471,1413,626,小猴紫日志,38,527766,m,杨紫超话#杨紫烈火英雄# @杨紫 一路向前,电影票房破11亿,向消防战士致敬!思路:首先拿...原创 2019-10-03 23:31:40 · 1370 阅读 · 0 评论