mapreduce
Albert_muk
data analyser
展开
-
常见海量数据问题
数据topN的问题解决方式有很多: 1.如果数据比较均匀的话,可以先分桶,再对再大的一个桶做归并或者堆排序 mapreduce 实现topNpackage com.demo.math;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hado原创 2017-06-25 17:20:58 · 221 阅读 · 0 评论 -
mapreduce 统计PV UV
在互联网环境下,一般网站都需要堆网站的pv,uv进行数据统计,简单理解下pv 就是url被访问的次数,uv则是url被不同ip访问的次数,ok 问题来了,一个文本日志,数据格式为:data,url,ip 现在需要使用mr对这份数据按天统计每个url链接的pv和uv。 数据如下:20150405,url1,ip1 20150405,url2,ip1 20150405,url1,ip2 2015040原创 2017-06-25 17:04:52 · 4027 阅读 · 1 评论 -
mapreduce 统计流量
流量统计,第一列为用户手机号,第二列为上行流量,第三列为下行流量,ok 问题来了 根据用户统计用户上行和下行流量1363157985066,2481,24681 1363157995052,264,0 1363157991076,132,1512 1363157995052,240,0 1363157993044,1527,2106 1363157995074,4116,1432 136315799原创 2017-06-26 15:17:56 · 378 阅读 · 0 评论