MapReduce
BabyFish13
不要急,慢慢来;控制好节奏,奋斗到底!
展开
-
用Python编写MapReduce代码与调用-某一天之前的所有活跃用户统计(1)
需求: 根据access_log数据,按平台与渠道维度统计出某一天之前的独立identifier数量。 Hdfs文件对应的表结构信息: 源表 CREATE TABLE `bi_all_access_log`( `appsource` string, `appkey` string, `identifier` string, `uid` string) PARTIT原创 2016-12-23 17:30:35 · 1513 阅读 · 0 评论 -
用Python编写MapReduce代码与调用-某一天之前的所有活跃用户统计(2)
要实现的需求与相关表结构信息见【用Python编写MapReduce代码与调用-某一天之前的所有活跃用户统计(1)--->http://blog.csdn.net/babyfish13/article/details/53841990】 考虑到此需求与词频统计有一定的相似性,所以代码由词频统计改编而成;且保证了无论如何调试和调用,数据的准确性。 1、mapper /Users/nisj/Py原创 2016-12-23 18:38:51 · 925 阅读 · 0 评论 -
Hadoop任务查看管理相关
1.查看 Job 信息: hadoop job -list 2.杀掉 Job: hadoop job –kill job_id 3.指定路径下查看历史日志汇总: hadoop job -history output-dir 4.作业的更多细节: hadoop job -history all output-dir 5.打印map和reduce完成百分比原创 2017-03-17 19:40:33 · 5539 阅读 · 0 评论 -
用Python编写MapReduce代码与调用-统计accessLog中链接的点击量
1、mapper /Users/nisj/PycharmProjects/BiDataProc/hitsCalc3/hitCalc_mapper.py #!/usr/bin/env python # encoding: utf-8 import sys import re # 输入为标准输入stdin for line in sys.stdin: # 删除开头和结果的空格 l原创 2017-08-04 13:58:27 · 657 阅读 · 0 评论 -
用Python编写MapReduce代码与调用-统计accessLog中链接所对应的UV
1、mapper/Users/nisj/PycharmProjects/BiDataProc/hitsCalc3/hitCalc_mapper.py #!/usr/bin/env python # encoding: utf-8 import sys import re # 输入为标准输入stdin for line in sys.stdin: if '/api/o...原创 2017-08-04 17:31:53 · 362 阅读 · 0 评论 -
Python的MapReduce调用及多输入文件的使用(统计url的点击量)
1、在日志中统计对应链接的点击量脚本 由于业务上暂用不到reduce过程,所以只有一个mapper脚本。 /Users/nisj/PycharmProjects/BiDataProc/hitsCalc3/filter_mapperOnly.py #!/usr/bin/env python # encoding: utf-8 import sys # 输入为标准输入stdin for lin原创 2017-08-28 10:16:34 · 2156 阅读 · 0 评论 -
Hadoop之MapReduce调度:通过Python进行多日期多链接地址的串行跑批统计
1、mp调度配置文件 /Users/nisj/PycharmProjects/BiDataProc/hitsStaticAuto/mpConf.py #!/usr/bin/env python # encoding: utf-8 UrlList = ['/event/pvp/hero/tutorial/3/info.htm?s_=sy', '/api/discovery.htm'] resu原创 2017-09-11 11:18:40 · 567 阅读 · 0 评论