大数据比赛
文章平均质量分 78
安徽省大数据比赛
小张小张永远不慌
这个作者很懒,什么都没留下…
展开
-
参加大数据比赛的想法
准备了3个多月的大数据比赛,今天比完了,内心有一些想法,在听了老师的建议之后决定还是写个博客纪念一下,也是一段回忆。同时,这样也可以记录自己现在有哪些不足的地方,更好的学习。 比赛的前一天: 1.mapreduce 原本以为mapreduce学习的差不多了,但在看一个自己写的案例代码和笔记的时候还是不知道排序和分区的执行顺序,虽然之前也看了博客和相关的书籍,但是对mapreduce的执行原理理解的...原创 2019-10-13 23:01:41 · 987 阅读 · 3 评论 -
现场赛-----可视化
第四部分:可视化(15分) 数据: 有泰坦尼克号 公开数据集合数据:共有891行、12列。这代表本训练集共有891条数据,每条数据有12类信息。包括: • PassengerId => 乘客ID • Survived => 获救情况(1为获救,0为未获救) • Pclass => 乘客等级(1/2/3等舱位) • Name => 乘客姓名 • Sex => 性别 • ...原创 2020-02-21 13:12:39 · 561 阅读 · 2 评论 -
网络赛----可视化
第四部分:可视化(15分) 近些年空气污染在我国很多地区非常严重,其中PM2.5作为衡量空气质量的一个重要指标,当前数据为2018年12月份1号-10号全国大部分城市的站点检测数据。接下来我们将这些数据进行可视化来看下PM2.5的分布情况。 数据: 链接:https://pan.baidu.com/s/1AzgRiCxpCZ8-we8sfRMAFw 提取码:0j57 1、 利用Bar图输出城市(c...原创 2020-02-20 14:19:39 · 697 阅读 · 0 评论 -
2018年安徽省大数据网络赛数据分析(三)
数据 36.63.116.201|sdk.conf.igexin.com|20170207161935|61.147.218.24;222.186.20.109;222.186.20.123|0 36.63.123.215|cm052.getui.igexin.com|20170207161935|183.131.1.82|0 36.63.132.38|mmbiz.qpic.cn|20170207...原创 2019-10-03 14:23:26 · 1811 阅读 · 0 评论 -
2019年安徽省大数据网络赛数据预处理(三)
数据 zhan.txt zhan.txt其实就是预处理二所得的数据,因为不想把原来的数据所替换,所以重命名为zhan.txt了 "uid":"131192622122401792" "platform":"Android" "app_version":"1007030202" "pid":"5616" "cityid":"626" "uid":"13119262212240179...原创 2019-10-02 17:51:10 · 890 阅读 · 0 评论 -
2019年安徽省大数据网络赛数据预处理(二)
数据 题目要求 将原始数据中用户的"uid",“platform”,“app_version”,“pid”,"cityid"五个字段和其对应的值提取出来。 代码 package com.mr2; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs....原创 2019-10-02 17:16:38 · 594 阅读 · 0 评论 -
2019年安徽省大数据网络赛数据预处理(-)
数据样式 {"common":{"locationcity":0,"uid":"188495963831271424","uaid":"0","platform":"Android","app_version":"1007090002","net":"WIFI","pid":"5057","identifier":"869121033612809","cityid":"2503","iccid":...原创 2019-09-28 20:26:35 · 807 阅读 · 6 评论